Page 37 - 인공지능 수학 교과서
P. 37

문장에서 주제어를 어떻게 찾을까?

                 앞서 살펴본 단어별 빈도수를 성분으로 하는 벡터는 텍스트 자료에 해당 단어가 얼

               마나 자주 쓰였는지를 나타내므로, 빈도수를 참고하면 각 단어가 텍스트 내에서 얼마

               나 중요한 역할을 하는지 유추할 수 있다.
                 다음은 신종 독감 예방 기사에 달린 댓글 A와 B에 포함된 단어들을 빈도수로 나타

               낸 것이다.



                        댓글 A:   마스크를 착용하는 것이 효과적인 예방을 위해 정말 정말 중요합니다.
                               예방을 위해서는 마스크 착용이 가장 효과적입니다.
                               마스크를 착용하세요. 반드시 마스크 착용!

                        댓글 B: 마스크 착용이 최고입니다. 꼭 마스크 착용!



                                      댓글 A                          댓글 B
                             마스크   4      예방     2                마스크   2
                             착용     4     효과     2                착용     2
                             정말     2     반드시   1                 최고     1
                             중요     1


                                               기사 댓글의 단어별 빈도수


                                                         
                 댓글 A와 B에 나타난 단어의 빈도수를 벡터 a, b로 각각 표현하면 다음과 같다.
               A                                                                          B
                  단어       마스크      착용      정말      중요      예방      효과      반드시      최고
                 댓글 A       4        4       2       1       2        2       1       0
                  댓글 B      2        2       0       0       0        0       0       1




                                                       
                               a=(4, 4, 2, 1, 2, 2, 1, 0),  b=(2, 2, 0, 0, 0, 0, 0, 1)
                                

                 댓글 A에서 중요한 단어는 빈도수가 높은 ‘마스크’와 ‘착용’이다. 보통 문장에서 등
               장하는 횟수가 많은 단어가 핵심어일 가능성이 높다. 따라서 ‘마스크’와 ‘착용’이 댓글
               A의 주제어라고 유추할 수 있다. 마찬가지로 댓글 B에서 ‘마스크’와 ‘착용’의 빈도수

               가 높으므로 ‘마스크’와 ‘착용’이 주제어라고 유추할 수 있다.

                 한편 댓글 A에는 ‘마스크’와 ‘착용’ 단어를 각각 4번씩 사용하였고, 댓글 B에는                                 ‘단어의 사용 빈도수를
                                                                                                성분으로 하는 벡터’를
               ‘마스크’와 ‘착용’을 2번씩 사용하였다.                                                          ‘빈도수 벡터’라고 해요.
                 그러면 ‘마스크’와 ‘착용’이 댓글 B에서보다 댓글 A에서 더 중요시되는 것일까?

               빈도수 벡터로부터 텍스트에 등장하는 단어의 상대도수를 구하면 이를 확인할 수 있다.



                                                                                         1. 텍스트 자료의 표현과 처리   35
   32   33   34   35   36   37   38   39   40   41   42