Page 31 - 인공지능 수학 교과서
P. 31
② 단어의 빈도수를 표현하는 벡터
텍스트 자료를 집합으로 표현하거나 0과 1을 성분으로 가진 벡터로 표현하면 사용 단어 가방(bag-of-words)
된 단어에 대한 정보는 알 수 있지만, 사용된 횟수는 알 수 없다. 만약 어떤 단어가 문
장에서 여러 번 사용되었다면 중요도가 매우 높은 단어일 것이다. 따라서 주요 단어들 나 우리
너 본다
본다
우리
이 사용된 빈도수를 확인하기 위하여 빈도수를 성분으로 하는 벡터를 이용할 수 있다. 영화
우리 사진
영화 나
과정 1 간다 본다
그것 너
텍스트 자료에 포함된 주요 단어들을 추출하여 집합으로 나타낸다. 우리 한다
저것 우리 나
영화
과정 2 본다 너
추출한 주요 단어들이 텍스트 자료에 등장한 횟수를 각각 구한다. 주어진 문장들을 단어로 분
해하여 하나의 가방에 넣은
다음, 가방에 들어 있는 단
과정 3
어의 중복 횟수를 세어 벡터
구한 횟수를 차례대로 나열하여 벡터로 나타낸다. 의 성분으로 표현한다.
단어의 사용 빈도수를 벡터로 나타내는 과정
다음은 쇼핑몰 구매 후기이다. 후기 A와 B에서 주요 단어들의 사용 빈도수를 위의
과정에 따라 벡터로 나타내어 보자.
후기 A: 이 바지는 가격이 저렴해요. 신축성도 우수하고요. 이렇게 저렴한 가격에 살 수 있는
바지를 추천합니다.
후기 B: 저렴한 가격 때문에 바지를 구입했는데 보온이 안 되네요. 보온 때문에 비추천입니다.
과정 1 후기 A와 B의 주요 단어들을 집합 A와 B로, 전체 주요 단어들을 집합 A∪B
로 나타낸다.
A={ 바지, 가격, 저렴, 신축성, 우수, 추천 }
B={ 저렴, 바지, 가격, 구입, 보온, 비추천 }
A∪B={ 바지, 가격, 저렴, 신축성, 우수, 추천, 구입, 보온, 비추천 }
과정 2 후기 A, B의 문장에서 사용된 주요 단어의 빈도수를 세어 표로 나타낸다.
A B
바지 가격 저렴 신축성 우수 추천 구입 보온 비추천
후기 A 2 2 2 1 1 1 0 0 0
후기 B 1 1 1 0 0 0 1 2 1
과정 3 빈도수를 성분으로 갖는 벡터로 각각 나타낸다.
a=(2, 2, 2, 1, 1, 1, 0, 0, 0), b=(1, 1, 1, 0, 0, 0, 1, 2, 1)
1. 텍스트 자료의 표현과 처리 29