Page 80 - 인공지능 수학 교과서
P. 80

예제 2

                                                    를 나타낸 벡터를   a 1=(1, 1),   a 2=(3, 1),   a 3=(0, 1)이라고 할 때, 다
                                    세 단어 A 1 , A 2 , A 3
                                    음 물음에 답하시오.

                                    (1) 각 벡터의 코사인 유사도를 행렬로 나타내시오.
                                    (2) 위의 세 벡터 중 가장 유사한 문장을 나타내는 서로 다른 벡터 한 쌍을 찾으시오.



                                    풀이
                                                 1time3+1time1  25
                                    (1) C  a 1 , a 2  =   =                    2 5     2
                                                  1^2+1^2    3^2+1^2   5   1
                                                                                     5    2
                                                 3time0+1time1  10          2 5          10
                                                                 
                                       C  a 2 , a 3  =    =               5 f   1     10 p
                                                  3^2+1^2    0^2+1^2   10
                                                                               2    10
                                                 0time1+1time1  2                       1
                                       C  a 3 , a 1  =   =                2     10
                                                  0^2+1^2   1^2+1^2   2
                                                                               25
                                    (2) 가장 유사한 단어를 나타내는 벡터는 코사인 유사도가               인  a 1,   a 2 이다.
                                                                                5
                                                                                     답   (1) 풀이 참조   (2) a 1,  a 2




                                    문제 4   코사인 유사도를 나타낸 행렬이 다음과 같은 특징을 가지는 이유를 설명하시오.

                                     (1) 행렬(a_i_j)의 대각선 위에 있는 성분의 값은 1이다. 즉, a_i_i=1이다.
                                     (2) 행렬(a_i_j)의 성분은 대각선을 기준으로 대칭인 값을 가진다. 즉 a_i_j=a_j_i이다.




            유클리디안 유사도
            거리 기반: 세 자료는 거리
            상 가깝게 모여 있으므로 유          유클리디안 유사도와 코사인 유사도의 차이는?
            사도가 높음.
              Y                    코사인 유사도가 많이 사용되는 이유는 무엇일까?
                                   유클리디안 유사도는 거리가 가까우면 유사하다고 판단하고, 코사인 유사도는 두

                                 벡터의 방향이 비슷하면 유사하다고 판단한다. 이 둘은 어떤 차이가 있는 것일까?

                                   아래 표를 보고 유클리디안 유사도와 코사인 유사도를 각각 구하여 보자.
                            X
            코사인 유사도                         A                                                     B
            각도 기반: 두 자료를 나타                                                벡터 표현
            내는 벡터 사이의 각이 작으
                                                 단어          (쥐, 개, 기린, 오리, 사자, 레몬, 사과, 키위, 수박)
            므로 유사도가 높음.
              Y
                                                문장 A               a=(1, 1, 1, 1, 1, 0, 0, 0, 0)
                                                                    
                                                                    
                                                문장 B               b=(0, 0, 0, 0, 0, 6, 3, 7, 9)
                                                문장 C               c=(0, 0, 0, 0, 0, 1, 1, 1, 1)
                                                                    
                           x

            78    Ⅲ.  분류와 예측
   75   76   77   78   79   80   81   82   83   84   85