Page 41 - 인공지능 수학 교과서

P. 41

➋ 문장과 단어 사이의 유사성 알아보기
빈도수 벡터를 활용하면 주어진 텍스트 자료에서 중요한 단어나 주제어를 찾을 수

있다. 이 단어들은 해당 텍스트를 대표하는 단어로서 그 문장의 대푯값이 된다.
하나의 문장에 포함된 단어들의 임베딩 벡터의 각 성분별 평균을 구하면 그 문장을

대표하는 벡터를 얻을 수 있다. 이를 활용하여 어떤 단어가 문장이 내포하는 의미와 ▶ 단어 임베딩은 텍스트를
벡터로 표현할 때 의미도
유사한지 아닌지를 판단하는 과정을 살펴보자. 포함할 수 있게 해 주는

다음은 문장 A의 단어인 { 연필, 손편지, 종이 }와 문장 B의 단어인 { 인공지능, 이메일, 방법이다.

스마트폰 }을 각각 임베딩 벡터로 나타낸 것이다.

문장 A의 단어 연필 손편지 종이

임베딩 벡터 OA_1 =a_1=(0.5, 1) OA_2 =a_2=(1.5, 0.6) OA_3 =a_3=(1, 1.1)



문장 B의 단어 인공지능 이메일 스마트폰

임베딩 벡터 OB_1 =b_1=(1, 1.4) OB_2 =b_2=(2, 1.2) OB_3 =b_3=(1.5, 1.6)






y
1.6 B_3 스마트폰
1.4 B_1 N
1.3 인공지능 C
1.2 컴퓨터 B_2 이메일 ▶ 왼쪽 그림은 임베딩 벡터
1.1 A_3 종이 로 나타낸 단어들을 좌
1 A_1 연필
0.9 M 표평면 위에 나타낸 것
이다.

0.6 A_2 손편지

O 0.5 1 1.51.6 2 x

여기에서 새로운 단어 ‘컴퓨터’를 나타내는 임베딩 벡터 c 를 c =(1.6, 1.3)이라고

할 때, 단어 ‘컴퓨터’는 어떤 문장에 가깝다고 할 수 있을까?

문장 A, B의 단어들을 나타낸 벡터들에서 대응하는 성분끼리의 평균을 성분으로
갖는 벡터를 각각 m, n 이라 하면



a_1+a_2+a_3  0.5+1.5+1 1+0.6+1.1

m= ={ , }=(1, 0.9)

3 3 3


b_1+b_2+b_3  1+2+1.5 1.4+1.2+1.6

n = ={ , }=(1.5, 1.4)
3 3 3
1. 텍스트 자료의 표현과 처리 39

36 37 38 39 40 41 42 43 44 45 46