Page 44 - 인공지능 수학 교과서
P. 44
문장들을 벡터로 표현하면 목적하는 값을 얻기 위해 벡터의 연산을 이용할 수 있다.
세 문장 A, B, C로 구성된 글에서 각 단어가 사용된 빈도수를 알아보려면
a+b+c의 성분을 확인하면 된다.
a+b+c
=(0, 3, 1, 0, 1, 0, 2, 0)+(1, 1, 0, 0, 2, 1, 2, 0)+(0, 1, 1, 1, 0, 2, 0, 1)
▶ 1+5+2+1+3+3+4+1 =(1, 5, 2, 1, 3, 3, 4, 1)
=20이므로 a +b +c 를
상대도수 벡터로 나타내면
또한 빈도수 벡터를 상대도수로 표현하면 특정 단어가 어떤 단어에 비해 몇 배 더
1
3
2
5
1
( 20 , 20 , 20 , 20 , 20 ,
사용되었는지 알기 쉽고, 전체 문장에서 특정한 단어가 차지하는 비율 등을 쉽게 확인
3 4 1 )
20 , 20 , 20
할 수 있다.
=(0.05, 0.25, 0.1, 0.05,
0.15, 0.15, 0.2, 0.05) 한편 상대도수 벡터로 나타낸 자료는 표나 그래프로 쉽게 시각화할 수 있다. 전체
이다.
글에서 각 단어가 사용된 상대도수를 표, 막대그래프, 원그래프로 표현하면 다음과
같다.
단어 규모 인공지능 시각화 자료 학교 교육 로봇 성분
상대도수 0.05 0.25 0.1 0.05 0.15 0.15 0.2 0.05
표로 시각화하기
0.25
10% 25%
0.20
5% 시각화 인공지능
자료
0.15 규모 5%
학교
15% 성분 5%
0.10
교육 로봇
20%
0.05
15%
0.00
규모 인공지능 시각화 자료 학교 교육 로봇 성분
막대그래프로 시각화하기 원그래프로 시각화하기
상대도수를 이용한 텍스트 자료의 시각화 방법들
창의 추론
생각해 보기 융합
41쪽의 세 문장 A, B, C로 구성된 글은 어떤 내용의 글일지 추측해 보자.
42 Ⅱ. 자료의 표현