Page 77 - 인공지능 수학 교과서
P. 77
② 코사인 유사도
벡터의 내적
두 벡터 a=(a_1, a_2, a_3, ⋯, a_n), b=(b_1, b_2, b_3, ⋯, b_n)에 대하여 ▶ 두 벡터의 합과 차의 결
과는 벡터이지만 두 벡터
의 내적은 하나의 수임에
abullb=a_1b_1+a_2b_2+a_3b_3+ ⋯+a_nb_n 주의한다.
을 두 벡터 a, b의 내적이라 하고, 기호로 abullb 와 같이 나타낸다.
두 벡터가 이루는 각의 크기
2차원 벡터 a=(a_1, a_2), b=(b_1, b_2)의 위치벡터 OA, OB는 각각 좌표평면에서 시 ▶ 0 ˚≤x ˚≤90 ˚이면
0 ≤cosx ˚≤1이고,
점을 원점 O, 종점을 각각 두 점 A(a_1, a_2), B(b_1, b_2)로 하는 벡터이다. 이때 두 벡
90 ˚<x ˚≤180 ˚이면
B
터 a, b가 이루는 각의 크기를 x˚라 할 때, 각 x˚에 대한 B -1≤cosx ˚<0이다.
b ø
cos x˚와 내적 abull b 사이에 다음과 같은 관계가 있음이 ø
ÈbÈ ø b
ø
알려져 있다. ÈbÈ
xù
xù a ø 180ù-xù a ø
abullb a_1b_1+a_2b_2 O A A
cos x˚= = O
ø
ø
|a||b| a_1^2+a_2^2 b_1^2+b_2^2 ÈaÈ ÈaÈ
코사인 유사도의 정의
벡터의 크기와 내적을 이용하면 두 벡터가 이루는 각의 크기 x˚에 대하여 cos x˚를
구할 수 있다. 이 값은 두 벡터의 방향이 얼마나 비슷한지를 나타내는 지표가 될 수 있
으므로 코사인 유사도라고 하고, 기호로 C a, b 와 같이 나타낸다.
▶ 코사인 유사도는 두 벡터
일반적으로 텍스트 자료 A, B를 나타내는 벡터가 각각 가 이루는 각의 크기를
이용하여 두 자료의 유사
한 정도를 수치화한 지표
a=(a_1, a_2, ⋯, a_n), b=(b_1, b_2, ⋯, b_n)
이다.
일 때, 두 자료 A, B 사이의 코사인 유사도 C ( a, b )는 다음과 같다.
abullb a_1b_1+a_2b_2+⋯+a_nb_n
C (a, b)= = ▶ 일반적으로 두 벡터의 코
|a||b| a_1^2+a_2^2+⋯+a_n^2 b_1^2+b_2^2+⋯+b_n^2
사인 유사도는 -1 이상
1 이하의 값을 가진다.
여기서는 두 벡터의 성
코사인 유사도는 텍스트 자료의 유사성 정도를 벡터가 이루는 각의 크기로 알아보 분이 모두 음이 아닌 실
수일 때만 고려하였다.
는 방법으로 그 값이 1에 가까울수록 텍스트 자료가 유사하다고 판단하고, 0에 가까울 이 경우, 두 벡터의 코사
인 유사도는 0 이상 1 이
수록 유사하지 않다고 판단한다.
하의 값을 가진다.
1. 자료의 분류 75