Page 129 - 인공지능 수학 교과서
P. 129
인공지능
지역 최솟값 문제와 경사하강법의 확장
이야기
1 지역 최솟값 문제
경사하강법을 간단히 정리하면, 손실함수의 어느 한 점에서 출발해서 최저점에 도달하기를 바라면서 조
금씩 이동하는 방법이다. 마치 산 정상에서 내려갈 때, 발걸음을 내디딜 때마다 지금 내려가는 방향으로 잘
가고 있는지 반복적으로 확인하면서 내려가는 것과 비슷한 방법이다.
만일 손실함수가 이차함수와 같이 아래로 볼록한 함수라면 어느 한 점에서 출발하여 적당한 보폭으로 계
속 내려가다 보면 언젠가는 결국 바닥에 이르게 될 것이다. 바닥에 이른다는 것은 손실함수 값이 최소이고,
경사가 0인 곳에 도착한 것을 의미한다.
그런데 실제 인공지능에서 다루는 손실함수들은 이차함수가 아닌 경우가 훨씬 많다. 실제로는 계란판이
나 산의 능선과 같은 형태를 띤 것들이 대부분이다.
손실함수의 값
3
4
1
최저점? 1
2
최저점? 2
매개변수의 값
[그림 Ⅳ-1] [그림 Ⅳ-2]
[그림 Ⅳ-1]에서 산 정상으로부터 눈을 가리고 걸음을 옮기면서 내려온다고 가정해 보자.
[그림 Ⅳ-1]의 산의 단면도는 [그림 Ⅳ-2]의 그래프처럼 보일 것이고, 점 ❶과 점 ❷에서 경사도가 0인
상황이다. 이 경우에 경사하강법을 적용하면 이 둘 사이의 차이를 발견하기 어려울 수 있다.
점 ❸에서 출발한다면 점 ❶ 근방에서 최솟값을 갖는 지역적 최소점에 도달하고 학습을 종료하는 경우가 생
긴다. 이것은 사실상 최적화가 완료되지 않은 경우이다. 모든 지역을 고려하면 점 ❷에서 최솟값을 가짐에도 불
구하고 잘못된 지점으로 이동하여 학습을 완료했기 때문이다. 이 문제를 지역 최솟값 문제라고 한다.
지역 최솟값 문제는 출발점을 어디로 선택하느냐에 따라 많은 영향을 받는다. 만일 점 ❹에서 출발했다면
경사하강법을 이용했을 때 전역 최솟값에 도달할 가능성이 매우 높다. 따라서 초기 출발점을 올바르게 선택
하는 것이 중요하다.
2 매개변수가 두 개인 손실함수에서의 경사하강법 E(a, b)
8
7
그림은 두 개의 매개변수를 갖는 손실함수 E(a, b)에 대한 경사 6
5
하강법의 과정을 나타낸 것이다. 4
3
현재의 매개변수 a, b에서 구한 미분계수를 이용하여 두 매개 1 2
0
변수의 수정을 반복해 나간다. 원리는 한 개의 매개변수를 갖는 2
0.5
손실함수 E(a)와 같은 것으로 여러 개의 매개변수를 갖는 손실 -2 -1.5 -0.5 0 b
-1
-0.5 0 -1
a 0.5 1 -1.5
함수에 일반화하여 적용할 수 있다. 1.5
1. 최적화와 의사 결정 127