Page 129 - 인공지능 수학 교과서
P. 129

인공지능
                                  지역 최솟값 문제와 경사하강법의 확장
                 이야기

                       1    지역 최솟값 문제

                         경사하강법을 간단히 정리하면, 손실함수의 어느 한 점에서 출발해서 최저점에 도달하기를 바라면서 조
                       금씩 이동하는 방법이다. 마치 산 정상에서 내려갈 때, 발걸음을 내디딜 때마다 지금 내려가는 방향으로 잘
                       가고 있는지 반복적으로 확인하면서 내려가는 것과 비슷한 방법이다.
                         만일 손실함수가 이차함수와 같이 아래로 볼록한 함수라면 어느 한 점에서 출발하여 적당한 보폭으로 계

                       속 내려가다 보면 언젠가는 결국 바닥에 이르게 될 것이다. 바닥에 이른다는 것은 손실함수 값이 최소이고,
                       경사가 0인 곳에 도착한 것을 의미한다.
                         그런데 실제 인공지능에서 다루는 손실함수들은 이차함수가 아닌 경우가 훨씬 많다. 실제로는 계란판이
                       나 산의 능선과 같은 형태를 띤 것들이 대부분이다.

                                                                   손실함수의 값

                                                                             3
                                                                                     4
                                           1
                                         최저점?                                  1

                                                         2
                                                       최저점?                                  2

                                                                                             매개변수의 값
                                          [그림 Ⅳ-1]                               [그림 Ⅳ-2]
                         [그림 Ⅳ-1]에서 산 정상으로부터 눈을 가리고 걸음을 옮기면서 내려온다고 가정해 보자.
                         [그림 Ⅳ-1]의 산의 단면도는 [그림 Ⅳ-2]의 그래프처럼 보일 것이고, 점 ❶과 점 ❷에서 경사도가 0인

                       상황이다. 이 경우에 경사하강법을 적용하면 이 둘 사이의 차이를 발견하기 어려울 수 있다.
                         점 ❸에서 출발한다면 점 ❶ 근방에서 최솟값을 갖는 지역적 최소점에 도달하고 학습을 종료하는 경우가 생
                       긴다. 이것은 사실상 최적화가 완료되지 않은 경우이다. 모든 지역을 고려하면 점 ❷에서 최솟값을 가짐에도 불
                       구하고 잘못된 지점으로 이동하여 학습을 완료했기 때문이다. 이 문제를 지역 최솟값 문제라고 한다.

                         지역 최솟값 문제는 출발점을 어디로 선택하느냐에 따라 많은 영향을 받는다. 만일 점 ❹에서 출발했다면
                       경사하강법을 이용했을 때 전역 최솟값에 도달할 가능성이 매우 높다. 따라서 초기 출발점을 올바르게 선택
                       하는 것이 중요하다.


                       2    매개변수가 두 개인 손실함수에서의 경사하강법                                                         E(a, b)
                                                                                                               8
                                                                                                               7
                         그림은 두 개의 매개변수를 갖는 손실함수 E(a, b)에 대한 경사                                                 6
                                                                                                               5
                       하강법의 과정을 나타낸 것이다.                                                                      4
                                                                                                              3
                         현재의 매개변수 a, b에서 구한 미분계수를 이용하여 두 매개                                                   1 2
                                                                                                              0
                       변수의 수정을 반복해 나간다. 원리는 한 개의 매개변수를 갖는                                                    2
                                                                                                           0.5
                       손실함수 E(a)와 같은 것으로 여러 개의 매개변수를 갖는 손실                      -2 -1.5                -0.5 0  b
                                                                                    -1
                                                                                      -0.5  0         -1
                                                                                      a     0.5  1  -1.5
                       함수에 일반화하여 적용할 수 있다.                                                      1.5

                                                                                            1. 최적화와 의사 결정   127
   124   125   126   127   128   129   130   131   132   133   134