Page 126 - 인공지능 수학 교과서
P. 126

▶ 경사하강법을 하산하는          매개변수 a를 갱신하면서 예측 모델 f(x)=ax를 최적화하여 예측의 오차를 줄여나
              사람의 걸음이라고 생각
                                 가는 과정이 바로 인공지능의 학습이 진행되는 것을 의미한다. 이때 학습을 위한 식
              하면  학습률은  보폭을
              의미한다.
                                 a-kE'(a)에서 양의 상수 k를 학습률이라고 한다. 학습률은 인공지능 학습의 속도를
                                 조절하는 역할을 한다.

                                   경사하강법을 이용하여 예측 모델 f(x)=ax를 최적화
                                                                                        y
                                                                                        3
                                 하는 과정을 살펴보자. 오른쪽 그림의 세 점 (1, 1), (2, 1),
                                 (2, 3)에 대하여 손실함수 E(a)를 구하면 다음과 같다.


                                       E(a)=;3!;  (a-1)^2+(2a-1)^2+(2a-3)^2           1


                                             =3a^2-6a+:¡3¡:=3(a-1)^2+;3@;               O       1      2   x




                                  1단계   최초의 매개변수 a와 학습률 k의 값을 각각 a_0=0, k=0.1이라 가정하자.
            ▶ 최초의 매개변수 a는 임
              의의 값으로 정해도 무
                                  2단계   a에 대한 이차함수 E(a)=3a^2-6a+:¡3¡:에 대하여 a=t에서의 미분계수는
              방하다.
                                         E'(t)=2×3t-6=6t-6이므로 E'(a_0)=E'(0)=6×0-6=-6


            ▶  학습을 위한 식의 갱신       3단계    최초의 매개변수 값 a_0=0에서의 미분계수 E'(0)=-6은 충분히 0에  가깝지
              과정을 살펴보면
              a_1=a_0-0.1E'(a_0)         는 않다고 판단하여 학습을 위한 식을 통해 a의 값을 a_0에서 a_1으로 갱신한다.

              a_2=a_1-0.1E'(a_1)               a_1=a_0-0.1E'(a_0)=0-0.1×(-6)=0.6
              a_3=a_2-0.1E'(a_2)
                    ⋯
                                                     이후 갱신된 a의 값 a_1으로부터 절차를 거듭하여 진행한다. 이와 같이 반복
                                         되는 과정을 표로 나타내면 다음과 같다.


                                                     매개변수 a의 값                      미분계수  E'(a)의 값

                                               (임의로 정한 값)=0                  E'(0)      =6×0      -6=-6


                                            a        -0.1×(-6 )      =0.6    E'(0.6)    =6×0.6    -6=-2.4


                                            a_2  .6  -0.1×(-2.4 )   =0.84    E'(0.84) =6×0.84  -6=-0.96

                                            a_3  .84-0.1×(-0.96)=0.936       E'(0.936)=6×0.936-6=-0.384

                                                         ⋮                               ⋮
                                             수정을 거듭할수록 손실함수 E(a)를                 미분계수 E'(a)의 값은
                                              최소화하는 매개변수 a의 값은                     0에 점점 가까워진다.
                                                  1에 점점 가까워진다.




            124    Ⅳ.  최적화
   121   122   123   124   125   126   127   128   129   130   131