Page 81 - 인공지능 수학 교과서

P. 81

앞의 표에서 다음 사실을 알 수 있다.
A B
문장 A와 문장 B 문장 B와 문장 C 문장 A와 문장 C

두 문장 사이의 공통 단어 없음. 공통 단어 많음. 공통 단어 없음.
공통 단어와 유사도 유사도 낮음. 유사도 높음. 유사도 낮음.
유클리디안 ▶ d( b , c  )를 구해 보면


da, b ≒13.4 db, c ≒11.4 da, c =3 (6-1)^2+(3-1)^2



유사도
+(7-1)^2+(9-1)^2
코사인 =5^2+2^2+6^2+8^2
Ca, b =0 Cb, c ≒0.94 Ca, c =0






유사도 =129
이므로
d( b , c  )
=129 =11.357 ⋯

| 유클리디안 유사도를 이용한 판단 |
≒11.4
문장 A와 문장 B 사이에는 공통 단어가 없음에도 d (a, b)≒13.4이고, 문장 B와
문장 C 사이에는 공통 단어가 많음에도 d ( b, c )≒11.4로 유클리디안 유사도에서는
차이가 별로 없다.
또한 문장 A와 문장 C 사이에는 공통 단어가 없음에도 d (a, c )=3으로 거리가 상
대적으로 가까운 유사한 문장이라고 판단한다.
| 코사인 유사도를 이용한 판단 |
문장 B와 문장 C 사이에는 공통 단어가 많고, 코사인 유사도의 값도 0.94로 1에

가까워 두 문장의 유사함이 분명히 드러난다.

이와 같이 일반적으로 유사도의 정확도는 유클리디안 유사도에 비하여 코사인 유사

도가 높은 편임을 알 수 있다.
또한 코사인 유사도는 0 이상 1 이하의 값을 가지므로 두 문장이 어느 정도 유사한

지 직관적으로 파악하기 쉽다. 따라서 코사인 유사도가 유사도를 판단하는 데 더 많이

사용된다.

 인공지능이 텍스트 자료를 분류할 때 사용하는 수학적 원리는 무엇일까?
스스로
 자카드 유사도는 무엇일까?
정리하기
 코사인 유사도는 값이 커지고 작아짐에 따라 유사한 정도가 어떻게 판단되는가?

1. 자료의 분류 79

76 77 78 79 80 81 82 83 84 85 86