Page 73 - 인공지능 수학 교과서
P. 73
텍스트 분류에 사용하는 유사도는 어떻게 계산할까?
텍스트 자료를 분류하기 위하여 사용하는 유사도에는 집합을 이용하는 자카드 유사도, ▶ 두 대상이 서로 유사한
정도를 수치로 나타낸
벡터를 이용하는 유클리디안 유사도와 코사인 유사도가 있다. 것을 유사도라고 한다.
❶ 집합을 이용하는 유사도
자카드 유사도는 두 문장 사이에 공통된 단어의 비율을 나타내는 것으로 두 문장에
공통적으로 포함된 단어들의 개수와 전체 단어의 개수의 비로 나타낸다.
두 문장 A, B에 포함된 단어들의 집합을 각각 A, B라 할 때, 두 문장 A, B에 대한
자카드 유사도 J(A, B)는 다음과 같다.
▶ n(A)는 집합 A에 포
n(A\capB) n(A\capB)
J(A, B)= = 함된 모든 원소의 개수
n(A∪B) n(A)+n(B)-n(A\capB)
이다.
자카드 유사도 J(A, B)는 0 이상 1 이하의 값을 갖는데 1에 가까울수록 두 문장 A, ▶ n(A\capB)=0,
즉 A\capB=∅이면
B는 유사한 문장으로, 0에 가까울수록 유사하지 않은 문장으로 각각 판별된다. J(A, B)=0
다음과 같이 새롭게 입력된 영화 댓글 X에 대하여 자카드 유사도를 이용하여 감성 n(A\capB)=n(A∪B),
즉 A=B이면
분석을 해 보자.
J(A, B)=1이다.
영화 댓글 X
내가 선호하지 않는 장르라 지루한 영화이고 별로일 줄 알았는데, 스토리도 괜찮은 것 같고,
연출도 짱이고, 최고로 좋다. 정말 재밌게 본 괜찮은 영화이다.
[표 Ⅲ-1]의 영화 댓글들의 긍정과 부정 단어 가방의 집합을 P와 N으로 각각 나타
내면 다음과 같다.
P = { 좋다, 괜찮은, 재밌게, 귀엽고, 짱, 잘한다, 멋있다, 선호, 예쁘다, 최고 }
N={ 별로, 없음, 않는, 지루한, 최악, 아깝다, 부족한, 아쉽다, 부담, 싫다 }
▶ 두 그림은 영화에 대한
최고! 별로! 긍정과 부정 표현 단어의
예를 든 것이다.
한편, 새롭게 입력된 영화 댓글 X에 포함된 단어들의 집합 X는 다음과 같다고 하자.
X={ 선호, 않는, 지루한, 별로, 괜찮은, 짱, 최고, 좋다, 재밌게 }
1. 자료의 분류 71