Page 29 - 인공지능 수학 교과서
P. 29
텍스트 자료를 어떻게 수와 수학 기호로 표현할까?
인공지능이 텍스트 자료를 수와 수학 기호로 표현하는 방법에는 집합을 이용하는
방법과 벡터를 이용하는 방법이 있다.
➊ 텍스트 자료를 집합으로 표현하기
인공지능은 텍스트 자료에서 문장을 구성하는 주요 단어들을 분리한 후, 집합을 이
용하여 표현한다.
예를 들어 온라인 면접 평가에 관한 두 기사에 포함된 의미 있는 단어에 임의로 밑
줄을 그어 표현해 보자.
▶ 문장을 단어로 분석할 때
기사 A: 면접을 위해서는 컴퓨터에 얼굴과 목소리를 등록해야 한다. ‘는’, ‘이’와 같이 의미를
지니고 있지 않은 단어
기사 B: 얼굴은 다시 촬영할 수 있었으며, 등록 후 컴퓨터의 질문으로 면접이 시작되었다. 들은 분석에 필요하지
않으므로 제거 후, 남은
의미 있는 단어만으로
분석한다.
두 기사 A와 B에 포함된 주요 단어들을 각각 두 집합 A와 B로 표현한다.
A={ 면접, 컴퓨터, 얼굴, 목소리, 등록 }
B={ 얼굴, 촬영, 등록, 컴퓨터, 질문, 면접, 시작 }
텍스트 자료에서 주요 단어들을 추출하여 집합으로 표현하면 해당 문장에 대한
주제를 짐작할 수 있다. 그러나 인공지능은 분할된 단어 역시 이해할 수 없으므로
0, 1, 2, ⋯ 와 같이 각 단어에 대응하는 고유한 값을 부여하여 구별한다. ▶ 일반적으로 집합 형태의
자료는 컴퓨터 프로그램
두 집합 A, B에서 고유한 값을 부여하여 집합으로 나타내면 다음과 같다.
에서 배열로 표현한다.
이때 배열 인덱스는 0부
터 시작한다. 이 방법을
A B
단어 면접 컴퓨터 얼굴 목소리 등록 촬영 질문 시작
이용하여 배열 인덱스를
고유한 값 0 1 2 3 4 5 6 7 각 단어에 대한 고유한
값으로 부여하였다.
A = { 면접, 컴퓨터, 얼굴, 목소리, 등록 } = { 0, 1, 2, 3, 4 }
B = { 얼굴, 촬영, 등록, 컴퓨터, 질문, 면접, 시작 } = { 0, 1, 2, 4, 5, 6, 7 }
텍스트 자료를 집합으로 표현하면 어떤 단어가 자료에 포함되는지를 파악하는 것이
가능하며, 이를 바탕으로 해당 자료의 특징을 분석하는 데 활용할 수 있다. 그러나 텍
스트 자료를 집합으로만 표현할 경우 원소들 사이에 순서를 고려하지 않으므로 그 텍
스트 자료가 가진 특징에 관한 정보를 충분히 담아내기 어렵다는 한계가 있다.
1. 텍스트 자료의 표현과 처리 27