Page 81 - 인공지능 수학 교과서
P. 81
앞의 표에서 다음 사실을 알 수 있다.
A B
문장 A와 문장 B 문장 B와 문장 C 문장 A와 문장 C
두 문장 사이의 공통 단어 없음. 공통 단어 많음. 공통 단어 없음.
공통 단어와 유사도 유사도 낮음. 유사도 높음. 유사도 낮음.
유클리디안 ▶ d( b , c )를 구해 보면
da, b ≒13.4 db, c ≒11.4 da, c =3 (6-1)^2+(3-1)^2
유사도
+(7-1)^2+(9-1)^2
코사인 =5^2+2^2+6^2+8^2
Ca, b =0 Cb, c ≒0.94 Ca, c =0
유사도 =129
이므로
d( b , c )
=129 =11.357 ⋯
| 유클리디안 유사도를 이용한 판단 |
≒11.4
문장 A와 문장 B 사이에는 공통 단어가 없음에도 d (a, b)≒13.4이고, 문장 B와
문장 C 사이에는 공통 단어가 많음에도 d ( b, c )≒11.4로 유클리디안 유사도에서는
차이가 별로 없다.
또한 문장 A와 문장 C 사이에는 공통 단어가 없음에도 d (a, c )=3으로 거리가 상
대적으로 가까운 유사한 문장이라고 판단한다.
| 코사인 유사도를 이용한 판단 |
문장 B와 문장 C 사이에는 공통 단어가 많고, 코사인 유사도의 값도 0.94로 1에
가까워 두 문장의 유사함이 분명히 드러난다.
이와 같이 일반적으로 유사도의 정확도는 유클리디안 유사도에 비하여 코사인 유사
도가 높은 편임을 알 수 있다.
또한 코사인 유사도는 0 이상 1 이하의 값을 가지므로 두 문장이 어느 정도 유사한
지 직관적으로 파악하기 쉽다. 따라서 코사인 유사도가 유사도를 판단하는 데 더 많이
사용된다.
인공지능이 텍스트 자료를 분류할 때 사용하는 수학적 원리는 무엇일까?
스스로
자카드 유사도는 무엇일까?
정리하기
코사인 유사도는 값이 커지고 작아짐에 따라 유사한 정도가 어떻게 판단되는가?
1. 자료의 분류 79