Page 134 - 인공지능 수학 교과서
P. 134

인공지능이 최적화를 통해 합리적인 의사 결정을 수행하는 사례

                                   인공지능이 합리적인 의사 결정을 통해 인간 생활의 편의성을 개선하고 문제 상황을

                                 해결하여 올바르게 활용하는 사례들을 살펴보자.

                                 ➊ 바둑 프로그램

            ▶  바둑은  체스나  장기에       지난 2016년 인공지능 바둑 프로그램 ‘알파고(AlphaGo)’가 세계 최정상급 실력을
              비해 훨씬 더 복잡한 경
                                 지닌 우리나라 프로 바둑 기사와의 대국에서 거둔 4승 1패의 결과는 많은 사람들에게
              우의 수를 지니며, 돌들
              사이에 강약이 존재하지       강한 인상을 주었다.
              않는 특징이 있다. 이 점
              때문에 인공지능이 학습         딥러닝과 강화 학습을 통합한 심층 강화 학습 알고리즘을 기반으로 탄생한 알파고
              하기  어려운  종목으로
                                 는 실제 프로 바둑 기사들의 많은 기보로부터 돌 배치의 규칙성과 승부의 결과를 학
              꼽혀 왔었다.
                                 습하여 바둑 기사가 다음에 둘 수와 그에 따른 승률의 변화를 예측하도록 학습하였다.
                                 그 결과 상대방의 수에 대응하여
                                 승률이 가장 높은 수를 다음에 둘

                                 수로 결정하는 방식으로 알파고는
                                 대국에 임하였다. 즉 이길 확률이

                                 가장 높은 수를 연속적으로 둘 수
                                 있도록 전략을 수립하고, 이를 바

                                 탕으로 상대방이 둔 수에 따라 합
                                 리적인 의사 결정을 내렸다.                                 알파고와 이세돌의 바둑 대결




                                        데이터 학습                     최적 전략                  합리적 의사 결정

                                     수많은 프로 기사들의                 대국 중 다음 수를
                                                                                             전략 후보 중
                                       기보를 이용하여                   예측하기 위해
                                                                                        확률적으로 이길 수 있는
                                     게임에서 이긴 패턴을                 가치를 계산하고
                                                                                           최선의 선택을 함.
                                        사전에 학습함.                  전략을 세움.



                                   이 대회를 통하여 많은 사람들이 인공지능에 대해 관심을 갖게 되었고, 인간보다 뛰
                                 어난 능력을 지닌 인공지능을 눈으로 확인함에 따라 인공지능이 가져올 변혁에 기대

                                 를 갖게 되었다.
                                   이후, 알파고는 인간의 기보를 전혀 제공받지 않고, 자신과의 가상의 대국만을 통해

                                 학습을 진행할 수 있는 알파-제로로 발전하였다. 알파-제로도 역시 승률이 높은 수에
                                 더 많은 보상을 부여하는 심층 강화 학습 알고리즘을 사용하였다. 알파-제로는 학습

                                 을 진행한 지 40여일 만에 기존의 모든 바둑용 인공지능보다 더 뛰어난 바둑 실력을

                                 보였다.

            132    Ⅳ.  최적화
   129   130   131   132   133   134   135   136   137   138   139