Page 81 - 인공지능 수학 교과서
P. 81

앞의 표에서 다음 사실을 알 수 있다.
               A                                                                          B
                                    문장 A와 문장 B          문장 B와 문장 C         문장 A와 문장 C

                   두 문장 사이의          공통 단어 없음.          공통 단어 많음.          공통 단어 없음.
                 공통 단어와 유사도           유사도 낮음.            유사도 높음.             유사도 낮음.
                    유클리디안                                                                      ▶ d(  b  , c    )를 구해 보면
                                                           
                                         
                                    da, b  ≒13.4     db, c  ≒11.4       da, c  =3          (6-1)^2+(3-1)^2
                                                                                 
                                                                               
                                                             
                     유사도
                                                                                                  +(7-1)^2+(9-1)^2
                     코사인                                                                          =5^2+2^2+6^2+8^2
                                     Ca, b  =0        Cb, c  ≒0.94      Ca, c  =0
                                                             
                                                                                
                                                                                  
                                           
                                         
                                                           
                     유사도                                                                          =129
                                                                                                  이므로
                                                                                                  d(  b  , c    )
                                                                                                  =129 =11.357 ⋯
                                                                                                   
               | 유클리디안 유사도를 이용한 판단 |
                                                                                                  ≒11.4
                 문장 A와 문장 B 사이에는 공통 단어가 없음에도 d  (a, b)≒13.4이고, 문장 B와
               문장 C 사이에는 공통 단어가 많음에도 d  (  b, c )≒11.4로 유클리디안 유사도에서는
               차이가 별로 없다.
                 또한 문장 A와 문장 C 사이에는 공통 단어가 없음에도 d  (a, c )=3으로 거리가 상
               대적으로 가까운 유사한 문장이라고 판단한다.
               | 코사인 유사도를 이용한 판단 |
                 문장 B와 문장 C 사이에는 공통 단어가 많고, 코사인 유사도의 값도 0.94로 1에

               가까워 두 문장의 유사함이 분명히 드러난다.


                 이와 같이 일반적으로 유사도의 정확도는 유클리디안 유사도에 비하여 코사인 유사

               도가 높은 편임을 알 수 있다.
                 또한 코사인 유사도는 0 이상 1 이하의 값을 가지므로 두 문장이 어느 정도 유사한

               지 직관적으로 파악하기 쉽다. 따라서 코사인 유사도가 유사도를 판단하는 데 더 많이

               사용된다.














                                      인공지능이 텍스트 자료를 분류할 때 사용하는 수학적 원리는 무엇일까?
                    스스로
                                      자카드 유사도는 무엇일까?
                   정리하기
                                      코사인 유사도는 값이 커지고 작아짐에 따라 유사한 정도가 어떻게 판단되는가?




                                                                                                 1. 자료의 분류   79
   76   77   78   79   80   81   82   83   84   85   86