Page 39 - 인공지능 수학 교과서
P. 39

문제 3    다음 표는 어떤 댓글에 대한 단어별 빈도수와 상대도수를 조사하여 나타낸 것이다.

                         표를 보고 물음에 답하시오.

                  A                                                                     B
                     단어       게임      도움        골       축구       패스      선방       합계
                    빈도수        3       a        5        6        2       2        c

                   상대도수       ;20;     ;10;     b       ;10;     ;10;     ;10;     1
                                        ¡
                                                         £
                               £
                                                                           ¡
                                                                  ¡
                  (1) 상수 a, b, c에 대하여 abc의 값을 구하시오.
                  (2) 댓글의 상대도수를 성분으로 하는 벡터를 구하시오.


                   각 단어의 의미와 연관 관계를 어떻게 벡터로 표현할까?

                 각 단어를 개별적인 기호로 취급하는 원-핫 벡터나 빈도수 벡터 표현 방법에는 두 가

               지 문제점이 있다.

                 (1) 개별 단어 및 연결된 단어 간의 의미를 알기 어렵다.

                 (2)  장편 소설에는 많은 단어가 포함되어 있으므로 단어 전체를 나타낼 수 있는 아주 큰 차원                         ▶ 예를 들어 단어의 종류
                                                                                                 가 100,000개라면 하나
                    의 벡터가 필요하다. 하지만 이는 저장 공간 문제 때문에 비효율적인 방법이다.
                                                                                                 의 단어를 표현하기 위
                                                                                                 해  100,000개의  성분
                 두 문제를 해결하기 위해 단어의 의미를 고려하여 좀 더 조밀한 차원의 벡터로 단어                                   을 포함하는 벡터가 필
                                                                                                 요하다. 즉 한 단어를 표
               를 표현하는 방법을 단어 임베딩(word embedding)이라 하고, 이러한 과정을 통해 생                              현하기 위해 1개의 1과

               성된 벡터를 단어 임베딩 벡터라고 한다.                                                            99,999개의  0이  필요
                                                                                                 하다.
                 단어 임베딩을 사용할 경우 비슷한 의미를 가진 단어들을 서로 가까운 곳에 위치한

               벡터로 표현한다. 예를 들어 ‘고양이’, ‘야옹이’, ‘괭이’는 모두 고양이를 의미하는 단어
               이므로 [그림 Ⅱ -1]과 같이 서로 가까운 곳에 위치한 벡터로 표현이 가능하다.

                 또한 단어 임베딩을 함으로써 벡터 연산을 통해 단어와 단어 간의 관계를 드러낼 수                                 ▶ 벡터의 연산에는 벡터의
                                                                                                 덧셈과 뺄셈, 실수배 등
               있다. ‘소’와 ‘송아지’는 ‘어미-새끼’ 관계이다. 단어 임베딩을 통해 ‘소’와 ‘송아지’를
                                                                                                 이 있다.
               벡터로 표현한 경우, [그림 Ⅱ -2]에서 벡터 연산을 통해 어미와 새끼의 관계가 있음을
               보여줄 수 있다.




                                                                       Ó
                                                                        ²
                                                                 Ó
                                                                       ²+
                                                                      소
                                        개     개          소     소 소²+새끼Ó²=송아지Ó새끼Ó²=송아지Ó ²
                                      강아지   강아지                      송아지   송아지
                      고양이   고양이         강생이   강생이
                       야옹이   야옹이
                                                                       Ó
                                                                       ²+
                                                                        ²
                                                                      말
                                                           말    말²+새끼Ó²=망아지Ó새끼Ó²=망아지Ó ²
                                                                 Ó 말
                       괭이     괭이
                                                                       망아지   망아지
                                  호랑이   호랑이          닭      닭
                                                                    ²+
                                                              Ó
                                                                    Ó
                                                                     ²
                                                                   닭
                                 범     범                     닭²+새끼Ó²=병아리Ó새끼Ó²=병아리Ó ²
                                  어흥이   어흥이                      병아리   병아리
                              [그림 Ⅱ-1]                              [그림 Ⅱ-2]
                                                                                         1. 텍스트 자료의 표현과 처리   37
   34   35   36   37   38   39   40   41   42   43   44