Page 76 - 인공지능 수학 교과서
P. 76

유클리디안 유사도를 이용한 감성 분석
            ▶ 두 점 A, B 사이의 거       유클리디안 유사도는 두 텍스트 자료의 유사도를 기하적인 거리의 개념으로 나타낸
              리를 정의하는 방법에는
                                 수치이므로 그 값이 0에 가까울수록 두 텍스트 자료가 유사하다고 판단한다.
              여러 가지가 있다. 그중
              에서 선분 AB의 길이로        예를 들어 어떤 영화 댓글 X에 포함된 단어들의 빈도수 벡터 x 와 긍정적인 표현
              정의된 거리를 두 점 사
              이의 유클리디안 거리라       P에 포함된 단어들의 빈도수 벡터 p , 부정적인 표현 N에 포함된 단어들의 빈도수 벡
              고도 한다.
                                 터 n 이 각각 다음과 같다고 하자.

                                              단어            (좋다, 괜찮은, 귀엽고, 최고, 지루한, 부족한, 아쉽다, 싫다)

                                                                       
                                         긍정적인 표현 P                    p=(1, 1, 1, 1, 0, 0, 0, 0)
                                                                       
                                         부정적인 표현 N                    n=(0, 0, 0, 0, 1, 1, 1, 1)
                                         영화 댓글 X                      x=(1, 2, 0, 0, 1, 1, 2, 1)
                                                                       
                                   영화 댓글 X에 대한 감성 분석을 위하여 유클리디안 유사도 d  p , x  와 d  n , x  를
                                                                                             
                                 각각 구하면 다음과 같다.

                                 A                                                                          B
                                                        긍정 표현 P와 댓글 X의 유클리디안 유사도

                                      d  p, x  
                                         
                                           
                                         
                  
            ▶ x-p=                   =|x-p| 
               (0, 1, -1, -1, 1, 1, 2, 1)  =(1-1)^2+(2-1)^2+(0-1)^2 +(0-1)^2+(1-0)^2+(1-0)^2+(2-0)^2+(1-0)^2 
                                                                                    
                                                                                    
                                                               
                                                                       
                                         
               x-n=                   =10
               
                  
                                         
               (1, 2, 0, 0, 0, 0, 1, 0)
                                 A                                                                          B
                                                        부정 표현 N과 댓글 X의 유클리디안 유사도
                                      d  n, x 
                                         
                                      =|x-n| 
                                         
                                      =(1-0)^2+(2-0)^2+(0-0)^2 +(0-0)^2+(1-1)^2+(1-1)^2+(2-1)^2+(1-1)^2 
                                                               
                                                                       
                                                                                    
                                         
                                                      
                                      =6
                                   표현 P와 N에 대한 영화 댓글 X의 유클리디안 유사도를 비교하면
                                                               d  p, x    >  d    n, x  
                                                                              
                                                                           
                                                                  
                                                                     
                                 이다. 따라서 영화 댓글 X는 긍정 표현보다는 부정 표현과 더 가까우므로 ‘부정’의 감
                                 정을 담은 것으로 판단한다.

                                    문제 2    어느 포털 사이트에 입력된 검색어 X와 연관 검색어로 고려되는 두 텍스트 자료
                                           A, B를 나타내는 벡터가   x =(0, 1, 1),  a =(1, 2, 0),  b =(2, 1, 1)이라 하
                                           자. 이때 두 텍스트 A, B 중에서 검색어 X와 더 유사한 텍스트를 유클리디안 유
                                           사도를 이용하여 구하시오.


            74    Ⅲ.  분류와 예측
   71   72   73   74   75   76   77   78   79   80   81