Page 73 - 인공지능 수학 교과서
P. 73

텍스트 분류에 사용하는 유사도는 어떻게 계산할까?

                 텍스트 자료를 분류하기 위하여 사용하는 유사도에는 집합을 이용하는 자카드 유사도,                                 ▶ 두 대상이 서로 유사한
                                                                                                 정도를  수치로  나타낸
               벡터를 이용하는 유클리디안 유사도와 코사인 유사도가 있다.                                                  것을 유사도라고 한다.

               ❶ 집합을 이용하는 유사도

                 자카드 유사도는 두 문장 사이에 공통된 단어의 비율을 나타내는 것으로 두 문장에

               공통적으로 포함된 단어들의 개수와 전체 단어의 개수의 비로 나타낸다.
                 두 문장 A, B에 포함된 단어들의 집합을 각각 A, B라 할 때, 두 문장 A, B에 대한

               자카드 유사도 J(A, B)는 다음과 같다.

                                                                                               ▶  n(A)는  집합  A에  포
                                          n(A\capB)          n(A\capB)
                                J(A, B)=            =                                            함된 모든 원소의 개수
                                          n(A∪B)      n(A)+n(B)-n(A\capB)
                                                                                                 이다.

                 자카드 유사도 J(A, B)는 0 이상 1 이하의 값을 갖는데 1에 가까울수록 두 문장 A,                           ▶ n(A\capB)=0,
                                                                                                  즉 A\capB=∅이면
               B는 유사한 문장으로, 0에 가까울수록 유사하지 않은 문장으로 각각 판별된다.                                        J(A, B)=0
                 다음과 같이 새롭게 입력된 영화 댓글 X에 대하여 자카드 유사도를 이용하여 감성                                     n(A\capB)=n(A∪B),
                                                                                                  즉 A=B이면
               분석을 해 보자.
                                                                                                  J(A, B)=1이다.


                     영화 댓글 X
                     내가 선호하지 않는 장르라 지루한 영화이고 별로일 줄 알았는데, 스토리도 괜찮은 것 같고,
                     연출도 짱이고, 최고로 좋다. 정말 재밌게 본 괜찮은 영화이다.



                 [표 Ⅲ-1]의 영화 댓글들의 긍정과 부정 단어 가방의 집합을 P와 N으로 각각 나타
               내면 다음과 같다.


                       P  =  { 좋다, 괜찮은, 재밌게, 귀엽고, 짱, 잘한다, 멋있다, 선호, 예쁘다, 최고 }

                       N={ 별로, 없음, 않는, 지루한, 최악, 아깝다, 부족한, 아쉽다, 부담, 싫다 }

                                                                                               ▶  두 그림은 영화에 대한
                                              최고!                                    별로!         긍정과 부정 표현 단어의
                                                                                                 예를 든 것이다.







                 한편, 새롭게 입력된 영화 댓글 X에 포함된 단어들의 집합 X는 다음과 같다고 하자.

                            X={ 선호, 않는, 지루한, 별로, 괜찮은, 짱, 최고, 좋다, 재밌게 }




                                                                                                  1. 자료의 분류  71
   68   69   70   71   72   73   74   75   76   77   78