Page 152 - 인공지능 수학 교과서
P. 152

정답 및 해설



                                                                 스스로 정리하기                              본문 79쪽
                               분류와 예측

                                                                 ➊  텍스트 자료를 집합이나 벡터로 나타낼 때, 공통 단
                                                                    어가 많거나 거리 또는 사잇각이 작을수록 유사하다
            Ⅲ -1. 자료의 분류
                                                                    고 분류한다. 이때, 거리는 자카드 유사도, 유클리디
             텍스트 자료의 분류                         본문 69~79쪽
                                                                    안 유사도, 코사인 유사도 등을 이용한다.
                 문제 1                                            ➋  자카드 유사도는 단어의 집합을 이용한 분류에서 활

                A\capX={내일},                                        용되는 유사도이다.
                A∪X={내일, 아침, 7시, 깨워, 어때, 날씨}                       자카드 유사도는 두 문장 사이에 공통된 단어의 비
                이므로                                                율을 나타내는 것으로 두 문장에 포함된 공통 단어
                         n(A\capX)
                J(A, X)=         = ;6!;                            들의 개수와 모든 단어들의 개수의 비로 나타낸다.
                         n(A∪X)
                                                                   즉 두 문장 A, B에 포함된 단어들의 집합을 각각
                B\capX={내일, 날씨},
                                                                   A, B라 할 때, 두 문장 A, B에 대한 자카드 유사도
                B∪X={내일, 날씨, 알려, 어때}
                                                                   J(A, B)는 다음과 같다.
                이므로
                          n(B\capX)                                         n(A\capB)        n(A\capB)
                J(B, X)=          = ;4@;= ;2!;                     J(A, B)=         =
                          n(B∪X)                                            n(A∪B)     n(A)+n(B)-n(A\capB)
                J(B, X)>J(A, X)이므로 X는 B와 더 유사하다.                   자카드 유사도 J(A, B)는 0 이상 1 이하의 값을 갖
                                                                   는데, 1에 가까울수록 유사한 문장으로, 0에 가까울
                  문제 2
                                                                   수록 유사하지 않은 문장으로 각각 판별한다.
                   
                      
                d( a, x )=(0-1)^2+(1-2)^2+(1-0)^2 
                                  
                                          
                             
                          

                                                                 ➌  코사인 유사도는 텍스트 자료의 유사성 정도를 벡터가
                       =sqrt3
                                                                    이루는 각의 크기로 알아보는 방법으로 그 값이 1에
                          
                   
                                  
                d( b, x )=(0-2)^2+(1-1)^2+(1-1)^2 
                                          
                      
                                                                    가까울수록 텍스트 자료가 유사하다고 판단하고, 0
                       =sqrt4=2
                                                                    에 가까울수록 유사하지 않다고 판단한다.
                d( a, x ) <d( b, x )이므로 검색어 X와 더 유사한 텍스
                      
                            
                              
                   
                트는 A이다.
                 문제 3                                           이미지 자료의 분류                         본문 82~87쪽
                                                                   문제 5
                      
                C(a, b )
                    
                                                                   두 행렬 A, B에서 1행의 4, 6열의 성분과 2행의 1, 2,
                      1×1+3×2+0×sqrt5
                =
                   1^2+3^2+0^2 1^2+2^2+(sqrt5 ) ^2        3, 4, 6열의 성분이 다르므로 두 행렬  A, B의 해밍 거
                                                                   리는 7이다.
                =;1¶0;
                                                                   두 행렬 B, C에서 1행 4열의 성분과 2행 2열의 성분
                  문제 4                                             이 다르므로 두 행렬 B, C의 해밍 거리는   2이다.

                (1)  행렬의 대각선에 있는 성분은 서로 같은 두 벡터의                   두 행렬 A, C에서 1행 6열의 성분과 2행의 1, 3, 4, 6열의
                   코사인 유사도에 해당한다. 서로 같은 두 벡터가                      성분이 다르므로 두 행렬 A, C의 해밍 거리는 5이다.
                   이루는 각은   0°이므로   C(a, a )=1이다.                 따라서 유사도가 가장 높은 두 행렬은 해밍 거리가
                                          
                (2)  두 텍스트 자료 A, B에 대응하는 벡터가 각각                    가장 작은 행렬 B, C이다.

                      a,   b일 때,                                    문제 6
                    
                       
                             abullb   bbulla                    (1) 0×0.5+0×3+1×2=2이므로   f(2)=0
                                       
                      
                   C(a, b )=      =        =C(  b, a  )
                                                
                        
                                                  
                            | a  |  b|  | b |  |  a|
                              |
                                                                   (2) 0×0.5+1×3+0×2=3이므로   f(3)=0
                   이므로   a_i_j=a_j_i 이 성립한다.                       (3) 1×0.5+1×3+0×2=3.5이므로   f(3.5)=1
            150    부록
   147   148   149   150   151   152   153   154   155   156   157