Page 80 - 인공지능 수학 교과서
P. 80
예제 2
를 나타낸 벡터를 a 1=(1, 1), a 2=(3, 1), a 3=(0, 1)이라고 할 때, 다
세 단어 A 1 , A 2 , A 3
음 물음에 답하시오.
(1) 각 벡터의 코사인 유사도를 행렬로 나타내시오.
(2) 위의 세 벡터 중 가장 유사한 문장을 나타내는 서로 다른 벡터 한 쌍을 찾으시오.
풀이
1time3+1time1 25
(1) C a 1 , a 2 = = 2 5 2
1^2+1^2 3^2+1^2 5 1
5 2
3time0+1time1 10 2 5 10
C a 2 , a 3 = = 5 f 1 10 p
3^2+1^2 0^2+1^2 10
2 10
0time1+1time1 2 1
C a 3 , a 1 = = 2 10
0^2+1^2 1^2+1^2 2
25
(2) 가장 유사한 단어를 나타내는 벡터는 코사인 유사도가 인 a 1, a 2 이다.
5
답 (1) 풀이 참조 (2) a 1, a 2
문제 4 코사인 유사도를 나타낸 행렬이 다음과 같은 특징을 가지는 이유를 설명하시오.
(1) 행렬(a_i_j)의 대각선 위에 있는 성분의 값은 1이다. 즉, a_i_i=1이다.
(2) 행렬(a_i_j)의 성분은 대각선을 기준으로 대칭인 값을 가진다. 즉 a_i_j=a_j_i이다.
유클리디안 유사도
거리 기반: 세 자료는 거리
상 가깝게 모여 있으므로 유 유클리디안 유사도와 코사인 유사도의 차이는?
사도가 높음.
Y 코사인 유사도가 많이 사용되는 이유는 무엇일까?
유클리디안 유사도는 거리가 가까우면 유사하다고 판단하고, 코사인 유사도는 두
벡터의 방향이 비슷하면 유사하다고 판단한다. 이 둘은 어떤 차이가 있는 것일까?
아래 표를 보고 유클리디안 유사도와 코사인 유사도를 각각 구하여 보자.
X
코사인 유사도 A B
각도 기반: 두 자료를 나타 벡터 표현
내는 벡터 사이의 각이 작으
단어 (쥐, 개, 기린, 오리, 사자, 레몬, 사과, 키위, 수박)
므로 유사도가 높음.
Y
문장 A a=(1, 1, 1, 1, 1, 0, 0, 0, 0)
문장 B b=(0, 0, 0, 0, 0, 6, 3, 7, 9)
문장 C c=(0, 0, 0, 0, 0, 1, 1, 1, 1)
x
78 Ⅲ. 분류와 예측