Page 75 - 인공지능 수학 교과서
P. 75

➋ 벡터를 이용한 유사도
                 문장이나 단어를 벡터로 나타내면 두 점 사이의 거리나 벡터의 방향을 이용하여 문                                  ▶  벡터는  크기와  방향을
                                                                                                 가지고 있으며, 좌표상
               장이나 단어 사이의 유사도를 측정할 수 있다. 유사도를 구하는 방법에는 두 점 사                                     의 한 점에 대응된다.
               이의 거리를 이용하는 유클리디안 유사도와 벡터의 방향을 이용하는 코사인 유사도가

               있다.




               ① 유클리디안 유사도

                  벡터의 크기

                 벡터 a =(a_1, a_2)는 좌표평면 위의 점 A(a_1, a_2)에           y                         ▶  벡터  AB  에  대하여
                                                                                                 점  A를  AB의  시점,
               대하여 위치벡터 OA  로 나타낼 수 있다. 이때 시점과                                    A(aÁ, aª)
                                                                    aª                           점 B를 AB의 종점이라
                                                                                                        
               종점 사이의 거리 OA  를 벡터 OA  의 크기라 하고 기호                                              고 한다.
                                                                       aø=OA ³
               로 |  OA  |로 나타낸다. 벡터 OA  의 크기는 다음과 같다.                                                       B
                                                                                 ³
                                                                             ÈOAÈ
                                                                    O              aÁ    x       A
                              |  a |=|  OA |=a_1^2+a_2^2 
                                


                  유클리디안 유사도의 정의
                 텍스트 자료 A, B를 나타내는 위치벡터를 각각                          y                         ▶ 원점 O를 시점으로 하는
                                                                                                 벡터 OA를 점 A의 위
                                                                        A(aÁ, aª)
                  a=  OA  =(a_1, a_2), b=OB  =(b_1, b_2)라고 하자.                                치벡터라고 한다.
                    
                                                                               AB³=bø-a ø         y          A
                 그림과 같이 벡터 b-a=(b_1-a_1, b_2-a_2)는 점 A에              a ø
                                                                                   B(bÁ, bª)
               서 점 B로의 벡터 AB  의 의미를 가지며 벡터의 크기는                              b ø
                                                                    O                   x        O            x
               다음과 같이 나타낼 수 있다.

                                                                                               ▶ 벡터 AB  의 크기 |AB|
                                       
                        
                      |  b -  a  |=|  AB  |=(b_1-a_1)^2+(b_2-a_2)^2                           는 AB의 길이와 같다.
                                   
                 이 식은 벡터   a, b  로 나타내어진 두 텍스트 자료 A, B 사이의 거리를 의미하므로
                                 
               유클리디안 유사도라고 하며 기호로 d    a, b 와 같이 나타낸다.                                       ▶ d  a, b 에서 d는
                                                  
                                                    
                                                                                                 distance의 약자
                 일반적으로 자료 A, B를 나타내는 벡터가 각각
                   a=(a_1, a_2, ⋯, a_n), b=(b_1, b_2, ⋯, b_n)일 때,
                                       
                    
                                                       
               두 자료 A, B 사이의 유클리디안 유사도 d( a, b )는 다음과 같다.

                            
                         
                      d(a, b)=| b-a |=(b_1-a_1)^2+(b_2-a_2)^2+(b_3-a_3)^2+⋯+(b_n-a_n)^2 
                                 
                                                             
                                        
                                    
                                                                                                 1. 자료의 분류   73
   70   71   72   73   74   75   76   77   78   79   80