Page 29 - 인공지능 수학 교과서
P. 29

텍스트 자료를 어떻게 수와 수학 기호로 표현할까?

                 인공지능이 텍스트 자료를 수와 수학 기호로 표현하는 방법에는 집합을 이용하는

               방법과 벡터를 이용하는 방법이 있다.

               ➊ 텍스트 자료를 집합으로 표현하기

                 인공지능은 텍스트 자료에서 문장을 구성하는 주요 단어들을 분리한 후, 집합을 이

               용하여 표현한다.
                 예를 들어 온라인 면접 평가에 관한 두 기사에 포함된 의미 있는 단어에 임의로 밑

               줄을 그어 표현해 보자.

                                                                                               ▶ 문장을 단어로 분석할 때
                    기사 A: 면접을 위해서는 컴퓨터에 얼굴과 목소리를 등록해야 한다.                                        ‘는’, ‘이’와 같이 의미를
                                                                                                 지니고 있지 않은 단어
                    기사 B: 얼굴은 다시 촬영할 수 있었으며, 등록 후 컴퓨터의 질문으로 면접이 시작되었다.                           들은  분석에  필요하지
                                                                                                 않으므로 제거 후, 남은
                                                                                                 의미  있는  단어만으로
                                                                                                 분석한다.
                 두 기사 A와 B에 포함된 주요 단어들을 각각 두 집합 A와 B로 표현한다.


                                A={ 면접, 컴퓨터, 얼굴, 목소리, 등록 }
                                B={ 얼굴, 촬영, 등록, 컴퓨터, 질문, 면접, 시작 }



                 텍스트 자료에서 주요 단어들을 추출하여 집합으로 표현하면 해당 문장에 대한
               주제를 짐작할 수 있다. 그러나 인공지능은 분할된 단어 역시 이해할 수 없으므로

               0, 1, 2, ⋯ 와 같이 각 단어에 대응하는 고유한 값을 부여하여 구별한다.                                    ▶ 일반적으로 집합 형태의
                                                                                                 자료는 컴퓨터 프로그램
                 두 집합 A, B에서 고유한 값을 부여하여 집합으로 나타내면 다음과 같다.
                                                                                                 에서 배열로 표현한다.
                                                                                                 이때 배열 인덱스는 0부
                                                                                                 터 시작한다. 이 방법을
               A                                                                          B
                  단어       면접      컴퓨터      얼굴     목소리      등록      촬영       질문      시작
                                                                                                 이용하여 배열 인덱스를
                 고유한 값      0        1       2       3       4        5       6       7          각 단어에 대한 고유한
                                                                                                 값으로 부여하였다.



                      A = { 면접, 컴퓨터, 얼굴, 목소리, 등록 } = { 0, 1, 2, 3, 4 }
                      B = { 얼굴, 촬영, 등록, 컴퓨터, 질문, 면접, 시작 } = { 0, 1, 2, 4, 5, 6, 7 }




                 텍스트 자료를 집합으로 표현하면 어떤 단어가 자료에 포함되는지를 파악하는 것이
               가능하며, 이를 바탕으로 해당 자료의 특징을 분석하는 데 활용할 수 있다. 그러나 텍
               스트 자료를 집합으로만 표현할 경우 원소들 사이에 순서를 고려하지 않으므로 그 텍

               스트 자료가 가진 특징에 관한 정보를 충분히 담아내기 어렵다는 한계가 있다.



                                                                                         1. 텍스트 자료의 표현과 처리   27
   24   25   26   27   28   29   30   31   32   33   34