Page 152 - 인공지능 수학 교과서

P. 152

정답 및 해설

스스로 정리하기 본문 79쪽
분류와 예측

➊ 텍스트 자료를 집합이나 벡터로 나타낼 때, 공통 단
어가 많거나 거리 또는 사잇각이 작을수록 유사하다
Ⅲ -1. 자료의 분류
고 분류한다. 이때, 거리는 자카드 유사도, 유클리디
 텍스트 자료의 분류 본문 69~79쪽
안 유사도, 코사인 유사도 등을 이용한다.
문제 1 ➋ 자카드 유사도는 단어의 집합을 이용한 분류에서 활

A\capX={내일}, 용되는 유사도이다.
A∪X={내일, 아침, 7시, 깨워, 어때, 날씨} 자카드 유사도는 두 문장 사이에 공통된 단어의 비
이므로 율을 나타내는 것으로 두 문장에 포함된 공통 단어
n(A\capX)
J(A, X)= = ;6!; 들의 개수와 모든 단어들의 개수의 비로 나타낸다.
n(A∪X)
즉 두 문장 A, B에 포함된 단어들의 집합을 각각
B\capX={내일, 날씨},
A, B라 할 때, 두 문장 A, B에 대한 자카드 유사도
B∪X={내일, 날씨, 알려, 어때}
J(A, B)는 다음과 같다.
이므로
n(B\capX) n(A\capB) n(A\capB)
J(B, X)= = ;4@;= ;2!; J(A, B)= =
n(B∪X) n(A∪B) n(A)+n(B)-n(A\capB)
J(B, X)>J(A, X)이므로 X는 B와 더 유사하다. 자카드 유사도 J(A, B)는 0 이상 1 이하의 값을 갖
는데, 1에 가까울수록 유사한 문장으로, 0에 가까울
문제 2
수록 유사하지 않은 문장으로 각각 판별한다.


d( a, x )=(0-1)^2+(1-2)^2+(1-0)^2 





➌ 코사인 유사도는 텍스트 자료의 유사성 정도를 벡터가
=sqrt3
이루는 각의 크기로 알아보는 방법으로 그 값이 1에



d( b, x )=(0-2)^2+(1-1)^2+(1-1)^2 


가까울수록 텍스트 자료가 유사하다고 판단하고, 0
=sqrt4=2
에 가까울수록 유사하지 않다고 판단한다.
d( a, x ) <d( b, x )이므로 검색어 X와 더 유사한 텍스




트는 A이다.
문제 3  이미지 자료의 분류 본문 82~87쪽
문제 5

C(a, b )

두 행렬 A, B에서 1행의 4, 6열의 성분과 2행의 1, 2,
1×1+3×2+0×sqrt5
=
1^2+3^2+0^2 1^2+2^2+(sqrt5 ) ^2 3, 4, 6열의 성분이 다르므로 두 행렬 A, B의 해밍 거
리는 7이다.
=;1¶0;
두 행렬 B, C에서 1행 4열의 성분과 2행 2열의 성분
문제 4 이 다르므로 두 행렬 B, C의 해밍 거리는 2이다.

(1) 행렬의 대각선에 있는 성분은 서로 같은 두 벡터의 두 행렬 A, C에서 1행 6열의 성분과 2행의 1, 3, 4, 6열의
코사인 유사도에 해당한다. 서로 같은 두 벡터가 성분이 다르므로 두 행렬 A, C의 해밍 거리는 5이다.
이루는 각은 0°이므로 C(a, a )=1이다. 따라서 유사도가 가장 높은 두 행렬은 해밍 거리가

(2) 두 텍스트 자료 A, B에 대응하는 벡터가 각각 가장 작은 행렬 B, C이다.

a, b일 때, 문제 6


abullb  bbulla  (1) 0×0.5+0×3+1×2=2이므로 f(2)=0


C(a, b )= = =C( b, a )



| a | b| | b | | a|
|
(2) 0×0.5+1×3+0×2=3이므로 f(3)=0
이므로 a_i_j=a_j_i 이 성립한다. (3) 1×0.5+1×3+0×2=3.5이므로 f(3.5)=1
150 부록

147 148 149 150 151 152 153 154 155 156 157