Page 31 - 인공지능 수학 교과서
P. 31

② 단어의 빈도수를 표현하는 벡터
                 텍스트 자료를 집합으로 표현하거나 0과 1을 성분으로 가진 벡터로 표현하면 사용                                  단어 가방(bag-of-words)

               된 단어에 대한 정보는 알 수 있지만, 사용된 횟수는 알 수 없다. 만약 어떤 단어가 문
               장에서 여러 번 사용되었다면 중요도가 매우 높은 단어일 것이다. 따라서 주요 단어들                                    나    우리
                                                                                                    너     본다
                                                                                                      본다
                                                                                                 우리
               이 사용된 빈도수를 확인하기 위하여 빈도수를 성분으로 하는 벡터를 이용할 수 있다.                                              영화
                                                                                                  우리   사진
                                                                                                    영화      나
                                                  과정 1                                          간다     본다
                                                                                                    그것      너
                             텍스트 자료에 포함된 주요 단어들을 추출하여 집합으로 나타낸다.                                우리     한다
                                                                                                   저것    우리  나
                                                                                                 영화
                                                  과정 2                                               본다   너
                             추출한 주요 단어들이 텍스트 자료에 등장한 횟수를 각각 구한다.                               주어진 문장들을 단어로 분
                                                                                               해하여 하나의 가방에 넣은
                                                                                               다음, 가방에 들어 있는 단
                                                  과정 3
                                                                                               어의 중복 횟수를 세어 벡터
                                   구한 횟수를 차례대로 나열하여 벡터로 나타낸다.                                  의 성분으로 표현한다.

                                          단어의 사용 빈도수를 벡터로 나타내는 과정

                 다음은 쇼핑몰 구매 후기이다. 후기 A와 B에서 주요 단어들의 사용 빈도수를 위의
               과정에 따라 벡터로 나타내어 보자.



                    후기 A:   이 바지는 가격이 저렴해요. 신축성도 우수하고요. 이렇게 저렴한 가격에 살 수 있는

                           바지를 추천합니다.


                    후기 B:   저렴한 가격 때문에 바지를 구입했는데 보온이 안 되네요. 보온 때문에 비추천입니다.



                과정 1    후기 A와 B의 주요 단어들을 집합 A와 B로, 전체 주요 단어들을 집합 A∪B
                       로 나타낸다.


                        A={ 바지, 가격, 저렴, 신축성, 우수, 추천 }
                        B={ 저렴, 바지, 가격, 구입, 보온, 비추천 }
                        A∪B={ 바지, 가격, 저렴, 신축성, 우수, 추천, 구입, 보온, 비추천 }



                과정 2   후기 A, B의 문장에서 사용된 주요 단어의 빈도수를 세어 표로 나타낸다.
               A                                                                          B
                          바지     가격     저렴     신축성     우수      추천     구입      보온     비추천

                 후기 A      2      2       2      1      1       1      0       0      0
                 후기 B      1      1       1      0      0       0      1       2      1


                과정 3  빈도수를 성분으로 갖는 벡터로 각각 나타낸다.

                              
                                                       
                             a=(2, 2, 2, 1, 1, 1, 0, 0, 0),   b=(1, 1, 1, 0, 0, 0, 1, 2, 1)

                                                                                         1. 텍스트 자료의 표현과 처리   29
   26   27   28   29   30   31   32   33   34   35   36