Page 75 - 인공지능 수학 교과서
P. 75
➋ 벡터를 이용한 유사도
문장이나 단어를 벡터로 나타내면 두 점 사이의 거리나 벡터의 방향을 이용하여 문 ▶ 벡터는 크기와 방향을
가지고 있으며, 좌표상
장이나 단어 사이의 유사도를 측정할 수 있다. 유사도를 구하는 방법에는 두 점 사 의 한 점에 대응된다.
이의 거리를 이용하는 유클리디안 유사도와 벡터의 방향을 이용하는 코사인 유사도가
있다.
① 유클리디안 유사도
벡터의 크기
벡터 a =(a_1, a_2)는 좌표평면 위의 점 A(a_1, a_2)에 y ▶ 벡터 AB 에 대하여
점 A를 AB의 시점,
대하여 위치벡터 OA 로 나타낼 수 있다. 이때 시점과 A(aÁ, aª)
aª 점 B를 AB의 종점이라
종점 사이의 거리 OA 를 벡터 OA 의 크기라 하고 기호 고 한다.
aø=OA ³
로 | OA |로 나타낸다. 벡터 OA 의 크기는 다음과 같다. B
³
ÈOAÈ
O aÁ x A
| a |=| OA |=a_1^2+a_2^2
유클리디안 유사도의 정의
텍스트 자료 A, B를 나타내는 위치벡터를 각각 y ▶ 원점 O를 시점으로 하는
벡터 OA를 점 A의 위
A(aÁ, aª)
a= OA =(a_1, a_2), b=OB =(b_1, b_2)라고 하자. 치벡터라고 한다.
AB³=bø-a ø y A
그림과 같이 벡터 b-a=(b_1-a_1, b_2-a_2)는 점 A에 a ø
B(bÁ, bª)
서 점 B로의 벡터 AB 의 의미를 가지며 벡터의 크기는 b ø
O x O x
다음과 같이 나타낼 수 있다.
▶ 벡터 AB 의 크기 |AB|
| b - a |=| AB |=(b_1-a_1)^2+(b_2-a_2)^2 는 AB의 길이와 같다.
이 식은 벡터 a, b 로 나타내어진 두 텍스트 자료 A, B 사이의 거리를 의미하므로
유클리디안 유사도라고 하며 기호로 d a, b 와 같이 나타낸다. ▶ d a, b 에서 d는
distance의 약자
일반적으로 자료 A, B를 나타내는 벡터가 각각
a=(a_1, a_2, ⋯, a_n), b=(b_1, b_2, ⋯, b_n)일 때,
두 자료 A, B 사이의 유클리디안 유사도 d( a, b )는 다음과 같다.
d(a, b)=| b-a |=(b_1-a_1)^2+(b_2-a_2)^2+(b_3-a_3)^2+⋯+(b_n-a_n)^2
1. 자료의 분류 73