Page 37 - 인공지능 수학 교과서
P. 37
문장에서 주제어를 어떻게 찾을까?
앞서 살펴본 단어별 빈도수를 성분으로 하는 벡터는 텍스트 자료에 해당 단어가 얼
마나 자주 쓰였는지를 나타내므로, 빈도수를 참고하면 각 단어가 텍스트 내에서 얼마
나 중요한 역할을 하는지 유추할 수 있다.
다음은 신종 독감 예방 기사에 달린 댓글 A와 B에 포함된 단어들을 빈도수로 나타
낸 것이다.
댓글 A: 마스크를 착용하는 것이 효과적인 예방을 위해 정말 정말 중요합니다.
예방을 위해서는 마스크 착용이 가장 효과적입니다.
마스크를 착용하세요. 반드시 마스크 착용!
댓글 B: 마스크 착용이 최고입니다. 꼭 마스크 착용!
댓글 A 댓글 B
마스크 4 예방 2 마스크 2
착용 4 효과 2 착용 2
정말 2 반드시 1 최고 1
중요 1
기사 댓글의 단어별 빈도수
댓글 A와 B에 나타난 단어의 빈도수를 벡터 a, b로 각각 표현하면 다음과 같다.
A B
단어 마스크 착용 정말 중요 예방 효과 반드시 최고
댓글 A 4 4 2 1 2 2 1 0
댓글 B 2 2 0 0 0 0 0 1
a=(4, 4, 2, 1, 2, 2, 1, 0), b=(2, 2, 0, 0, 0, 0, 0, 1)
댓글 A에서 중요한 단어는 빈도수가 높은 ‘마스크’와 ‘착용’이다. 보통 문장에서 등
장하는 횟수가 많은 단어가 핵심어일 가능성이 높다. 따라서 ‘마스크’와 ‘착용’이 댓글
A의 주제어라고 유추할 수 있다. 마찬가지로 댓글 B에서 ‘마스크’와 ‘착용’의 빈도수
가 높으므로 ‘마스크’와 ‘착용’이 주제어라고 유추할 수 있다.
한편 댓글 A에는 ‘마스크’와 ‘착용’ 단어를 각각 4번씩 사용하였고, 댓글 B에는 ‘단어의 사용 빈도수를
성분으로 하는 벡터’를
‘마스크’와 ‘착용’을 2번씩 사용하였다. ‘빈도수 벡터’라고 해요.
그러면 ‘마스크’와 ‘착용’이 댓글 B에서보다 댓글 A에서 더 중요시되는 것일까?
빈도수 벡터로부터 텍스트에 등장하는 단어의 상대도수를 구하면 이를 확인할 수 있다.
1. 텍스트 자료의 표현과 처리 35