Page 76 - 인공지능 수학 교과서
P. 76
유클리디안 유사도를 이용한 감성 분석
▶ 두 점 A, B 사이의 거 유클리디안 유사도는 두 텍스트 자료의 유사도를 기하적인 거리의 개념으로 나타낸
리를 정의하는 방법에는
수치이므로 그 값이 0에 가까울수록 두 텍스트 자료가 유사하다고 판단한다.
여러 가지가 있다. 그중
에서 선분 AB의 길이로 예를 들어 어떤 영화 댓글 X에 포함된 단어들의 빈도수 벡터 x 와 긍정적인 표현
정의된 거리를 두 점 사
이의 유클리디안 거리라 P에 포함된 단어들의 빈도수 벡터 p , 부정적인 표현 N에 포함된 단어들의 빈도수 벡
고도 한다.
터 n 이 각각 다음과 같다고 하자.
단어 (좋다, 괜찮은, 귀엽고, 최고, 지루한, 부족한, 아쉽다, 싫다)
긍정적인 표현 P p=(1, 1, 1, 1, 0, 0, 0, 0)
부정적인 표현 N n=(0, 0, 0, 0, 1, 1, 1, 1)
영화 댓글 X x=(1, 2, 0, 0, 1, 1, 2, 1)
영화 댓글 X에 대한 감성 분석을 위하여 유클리디안 유사도 d p , x 와 d n , x 를
각각 구하면 다음과 같다.
A B
긍정 표현 P와 댓글 X의 유클리디안 유사도
d p, x
▶ x-p= =|x-p|
(0, 1, -1, -1, 1, 1, 2, 1) =(1-1)^2+(2-1)^2+(0-1)^2 +(0-1)^2+(1-0)^2+(1-0)^2+(2-0)^2+(1-0)^2
x-n= =10
(1, 2, 0, 0, 0, 0, 1, 0)
A B
부정 표현 N과 댓글 X의 유클리디안 유사도
d n, x
=|x-n|
=(1-0)^2+(2-0)^2+(0-0)^2 +(0-0)^2+(1-1)^2+(1-1)^2+(2-1)^2+(1-1)^2
=6
표현 P와 N에 대한 영화 댓글 X의 유클리디안 유사도를 비교하면
d p, x > d n, x
이다. 따라서 영화 댓글 X는 긍정 표현보다는 부정 표현과 더 가까우므로 ‘부정’의 감
정을 담은 것으로 판단한다.
문제 2 어느 포털 사이트에 입력된 검색어 X와 연관 검색어로 고려되는 두 텍스트 자료
A, B를 나타내는 벡터가 x =(0, 1, 1), a =(1, 2, 0), b =(2, 1, 1)이라 하
자. 이때 두 텍스트 A, B 중에서 검색어 X와 더 유사한 텍스트를 유클리디안 유
사도를 이용하여 구하시오.
74 Ⅲ. 분류와 예측