Page 33 - 인공지능 수학 교과서
P. 33

③ 원-핫 벡터
                 벡터의 성분에서 하나의 성분을 1로 놓고, 나머지 모든 성분을 0으로 하는 벡터를

               원-핫(one-hot) 벡터라고 한다. 텍스트 자료에서 전체 주요 단어의 개수를 차원으로
               하고 특정 단어에 대응하는 성분을 1, 나머지를 모두 0으로 놓으면 원-핫 벡터로 나타

               낼 수 있다.
                 다음은 포털 사이트에서 ‘신종 독감 바이러스’를 주제어로 입력하여 검색한 기사들

               중 일부 제목이다.



                                기사 1: 신종 독감 바이러스 감염증 예방법

                                기사 2: 신종 독감 바이러스 백신의 효능은?
                                기사 3: 신종 독감 바이러스 백신, 전 세계 공유해야




                 세 기사 제목에서 추출한 전체 주요 단어들의 집합과 각 단어별로 나타낸 원-핫 벡

               터는 다음과 같다.


                            { 신종 독감, 바이러스, 감염증, 예방법, 백신, 효능, 전, 세계, 공유 }


               A                                                                          B
                     단어              원-핫 벡터                단어              원-핫 벡터
                   신종 독감        (1, 0, 0, 0, 0, 0, 0, 0, 0)  효능       (0, 0, 0, 0, 0, 1, 0, 0, 0)

                   바이러스         (0, 1, 0, 0, 0, 0, 0, 0, 0)  전        (0, 0, 0, 0, 0, 0, 1, 0, 0)
                    감염증         (0, 0, 1, 0, 0, 0, 0, 0, 0)  세계       (0, 0, 0, 0, 0, 0, 0, 1, 0)

                    예방법         (0, 0, 0, 1, 0, 0, 0, 0, 0)  공유       (0, 0, 0, 0, 0, 0, 0, 0, 1)
                     백신         (0, 0, 0, 0, 1, 0, 0, 0, 0)


                 원-핫 벡터는 텍스트 자료를 처리하거나 분류하는 과정에서 필요한 연산이 가능한

               벡터로 다양한 응용 분야에 활용되고 있다.










                                      인공지능은 텍스트 자료를 어떻게 수와 수학 기호로 처리하는가?
                    스스로
                                      텍스트 자료를 집합으로 표현하는 방법은 무엇인가?
                   정리하기
                                      텍스트 자료를 벡터로 표현하는 방법은 무엇인가?




                                                                                         1. 텍스트 자료의 표현과 처리   31
   28   29   30   31   32   33   34   35   36   37   38