Page 152 - 인공지능 수학 교과서
P. 152
정답 및 해설
스스로 정리하기 본문 79쪽
분류와 예측
➊ 텍스트 자료를 집합이나 벡터로 나타낼 때, 공통 단
어가 많거나 거리 또는 사잇각이 작을수록 유사하다
Ⅲ -1. 자료의 분류
고 분류한다. 이때, 거리는 자카드 유사도, 유클리디
텍스트 자료의 분류 본문 69~79쪽
안 유사도, 코사인 유사도 등을 이용한다.
문제 1 ➋ 자카드 유사도는 단어의 집합을 이용한 분류에서 활
A\capX={내일}, 용되는 유사도이다.
A∪X={내일, 아침, 7시, 깨워, 어때, 날씨} 자카드 유사도는 두 문장 사이에 공통된 단어의 비
이므로 율을 나타내는 것으로 두 문장에 포함된 공통 단어
n(A\capX)
J(A, X)= = ;6!; 들의 개수와 모든 단어들의 개수의 비로 나타낸다.
n(A∪X)
즉 두 문장 A, B에 포함된 단어들의 집합을 각각
B\capX={내일, 날씨},
A, B라 할 때, 두 문장 A, B에 대한 자카드 유사도
B∪X={내일, 날씨, 알려, 어때}
J(A, B)는 다음과 같다.
이므로
n(B\capX) n(A\capB) n(A\capB)
J(B, X)= = ;4@;= ;2!; J(A, B)= =
n(B∪X) n(A∪B) n(A)+n(B)-n(A\capB)
J(B, X)>J(A, X)이므로 X는 B와 더 유사하다. 자카드 유사도 J(A, B)는 0 이상 1 이하의 값을 갖
는데, 1에 가까울수록 유사한 문장으로, 0에 가까울
문제 2
수록 유사하지 않은 문장으로 각각 판별한다.
d( a, x )=(0-1)^2+(1-2)^2+(1-0)^2
➌ 코사인 유사도는 텍스트 자료의 유사성 정도를 벡터가
=sqrt3
이루는 각의 크기로 알아보는 방법으로 그 값이 1에
d( b, x )=(0-2)^2+(1-1)^2+(1-1)^2
가까울수록 텍스트 자료가 유사하다고 판단하고, 0
=sqrt4=2
에 가까울수록 유사하지 않다고 판단한다.
d( a, x ) <d( b, x )이므로 검색어 X와 더 유사한 텍스
트는 A이다.
문제 3 이미지 자료의 분류 본문 82~87쪽
문제 5
C(a, b )
두 행렬 A, B에서 1행의 4, 6열의 성분과 2행의 1, 2,
1×1+3×2+0×sqrt5
=
1^2+3^2+0^2 1^2+2^2+(sqrt5 ) ^2 3, 4, 6열의 성분이 다르므로 두 행렬 A, B의 해밍 거
리는 7이다.
=;1¶0;
두 행렬 B, C에서 1행 4열의 성분과 2행 2열의 성분
문제 4 이 다르므로 두 행렬 B, C의 해밍 거리는 2이다.
(1) 행렬의 대각선에 있는 성분은 서로 같은 두 벡터의 두 행렬 A, C에서 1행 6열의 성분과 2행의 1, 3, 4, 6열의
코사인 유사도에 해당한다. 서로 같은 두 벡터가 성분이 다르므로 두 행렬 A, C의 해밍 거리는 5이다.
이루는 각은 0°이므로 C(a, a )=1이다. 따라서 유사도가 가장 높은 두 행렬은 해밍 거리가
(2) 두 텍스트 자료 A, B에 대응하는 벡터가 각각 가장 작은 행렬 B, C이다.
a, b일 때, 문제 6
abullb bbulla (1) 0×0.5+0×3+1×2=2이므로 f(2)=0
C(a, b )= = =C( b, a )
| a | b| | b | | a|
|
(2) 0×0.5+1×3+0×2=3이므로 f(3)=0
이므로 a_i_j=a_j_i 이 성립한다. (3) 1×0.5+1×3+0×2=3.5이므로 f(3.5)=1
150 부록