Page 77 - 인공지능 수학 교과서
P. 77

② 코사인 유사도

                  벡터의 내적
                 두 벡터 a=(a_1, a_2, a_3, ⋯, a_n), b=(b_1, b_2, b_3, ⋯, b_n)에 대하여              ▶ 두 벡터의 합과 차의 결
                                                                                                 과는 벡터이지만 두 벡터
                                                                                                 의 내적은 하나의 수임에
                                      
                                     abullb=a_1b_1+a_2b_2+a_3b_3+ ⋯+a_nb_n                      주의한다.


                            
                 을 두 벡터 a, b의 내적이라 하고, 기호로 abullb 와 같이 나타낸다.
                               

                  두 벡터가 이루는 각의 크기

                 2차원 벡터 a=(a_1, a_2), b=(b_1, b_2)의 위치벡터 OA, OB는 각각 좌표평면에서 시                  ▶ 0 ˚≤x ˚≤90 ˚이면
                                                                    
                                        
                             
                                                                                                 0 ≤cosx ˚≤1이고,
               점을 원점 O, 종점을 각각 두 점 A(a_1, a_2), B(b_1, b_2)로 하는 벡터이다. 이때 두 벡
                                                                                                 90 ˚<x ˚≤180 ˚이면
                                                                                                 B
               터 a, b가 이루는 각의 크기를 x˚라 할 때, 각 x˚에 대한                              B              -1≤cosx ˚<0이다.
                   
                                                                                                     b ø
               cos  x˚와 내적 abull  b 사이에 다음과 같은 관계가 있음이                          ø
                                                                         ÈbÈ ø   b
                                                                                                     ø
               알려져 있다.                                                                              ÈbÈ
                                                                                                            xù
                                                                         xù         a ø           180ù-xù                a ø
                                 
                                abullb    a_1b_1+a_2b_2             O                  A                                   A
                       cos  x˚=      =                                                                    O
                                                                                ø
                                                                                                                    ø
                               |a||b|   a_1^2+a_2^2 b_1^2+b_2^2       ÈaÈ                                 ÈaÈ
                  코사인 유사도의 정의
                 벡터의 크기와 내적을 이용하면 두 벡터가 이루는 각의 크기 x˚에 대하여 cos  x˚를
               구할 수 있다. 이 값은 두 벡터의 방향이 얼마나 비슷한지를 나타내는 지표가 될 수 있

                                                      
               으므로 코사인 유사도라고 하고, 기호로 C    a, b  와 같이 나타낸다.
                                                                                               ▶ 코사인 유사도는 두 벡터
                 일반적으로 텍스트 자료 A, B를 나타내는 벡터가 각각                                                  가 이루는 각의 크기를
                                                                                                 이용하여 두 자료의 유사
                                                                                                 한 정도를 수치화한 지표
                              
                                                 
                            a=(a_1, a_2, ⋯, a_n),   b=(b_1, b_2, ⋯, b_n)
                                                                                                 이다.
               일 때, 두 자료 A, B 사이의 코사인 유사도 C  (  a, b )는 다음과 같다.


                                       
                                     abullb        a_1b_1+a_2b_2+⋯+a_nb_n
                           C  (a, b)=     =                                                    ▶ 일반적으로 두 벡터의 코
                              
                                 
                                     |a||b|  a_1^2+a_2^2+⋯+a_n^2 b_1^2+b_2^2+⋯+b_n^2 
                                                                                                 사인 유사도는 -1 이상
                                                                                                 1 이하의 값을 가진다.
                                                                                                 여기서는 두 벡터의 성
                 코사인 유사도는 텍스트 자료의 유사성 정도를 벡터가 이루는 각의 크기로 알아보                                     분이 모두 음이 아닌 실
                                                                                                 수일 때만 고려하였다.
               는 방법으로 그 값이 1에 가까울수록 텍스트 자료가 유사하다고 판단하고, 0에 가까울                                   이 경우, 두 벡터의 코사
                                                                                                 인 유사도는 0 이상 1 이
               수록 유사하지 않다고 판단한다.
                                                                                                 하의 값을 가진다.


                                                                                                 1. 자료의 분류   75
   72   73   74   75   76   77   78   79   80   81   82