Page 134 - 인공지능 수학 교과서
P. 134
인공지능이 최적화를 통해 합리적인 의사 결정을 수행하는 사례
인공지능이 합리적인 의사 결정을 통해 인간 생활의 편의성을 개선하고 문제 상황을
해결하여 올바르게 활용하는 사례들을 살펴보자.
➊ 바둑 프로그램
▶ 바둑은 체스나 장기에 지난 2016년 인공지능 바둑 프로그램 ‘알파고(AlphaGo)’가 세계 최정상급 실력을
비해 훨씬 더 복잡한 경
지닌 우리나라 프로 바둑 기사와의 대국에서 거둔 4승 1패의 결과는 많은 사람들에게
우의 수를 지니며, 돌들
사이에 강약이 존재하지 강한 인상을 주었다.
않는 특징이 있다. 이 점
때문에 인공지능이 학습 딥러닝과 강화 학습을 통합한 심층 강화 학습 알고리즘을 기반으로 탄생한 알파고
하기 어려운 종목으로
는 실제 프로 바둑 기사들의 많은 기보로부터 돌 배치의 규칙성과 승부의 결과를 학
꼽혀 왔었다.
습하여 바둑 기사가 다음에 둘 수와 그에 따른 승률의 변화를 예측하도록 학습하였다.
그 결과 상대방의 수에 대응하여
승률이 가장 높은 수를 다음에 둘
수로 결정하는 방식으로 알파고는
대국에 임하였다. 즉 이길 확률이
가장 높은 수를 연속적으로 둘 수
있도록 전략을 수립하고, 이를 바
탕으로 상대방이 둔 수에 따라 합
리적인 의사 결정을 내렸다. 알파고와 이세돌의 바둑 대결
데이터 학습 최적 전략 합리적 의사 결정
수많은 프로 기사들의 대국 중 다음 수를
전략 후보 중
기보를 이용하여 예측하기 위해
확률적으로 이길 수 있는
게임에서 이긴 패턴을 가치를 계산하고
최선의 선택을 함.
사전에 학습함. 전략을 세움.
이 대회를 통하여 많은 사람들이 인공지능에 대해 관심을 갖게 되었고, 인간보다 뛰
어난 능력을 지닌 인공지능을 눈으로 확인함에 따라 인공지능이 가져올 변혁에 기대
를 갖게 되었다.
이후, 알파고는 인간의 기보를 전혀 제공받지 않고, 자신과의 가상의 대국만을 통해
학습을 진행할 수 있는 알파-제로로 발전하였다. 알파-제로도 역시 승률이 높은 수에
더 많은 보상을 부여하는 심층 강화 학습 알고리즘을 사용하였다. 알파-제로는 학습
을 진행한 지 40여일 만에 기존의 모든 바둑용 인공지능보다 더 뛰어난 바둑 실력을
보였다.
132 Ⅳ. 최적화