Page 85 - 인공지능 수학 교과서
P. 85

인공지능이 손 글씨를 구별하는 원리는 무엇일까?


                 같은 숫자를 서로 다른 필체로 쓸 때 인공지능은 같은 숫자로 인식할 수 있을까?
                 미국의 얀 르쿤이 만든 MNIST 데이터 셋은 손으로 쓰인 0부터 9까지의 숫자 이미                               ▶  MNIST 데이터 셋은
                                                                                                 1980년대 미국 국립표
               지의 집합이다.                                                                          준기술연구소(National
                 각각의 숫자 이미지 데이터는 가로 28픽셀, 세로 28픽셀의 크기이며, 모든 숫자는                                  Institute of Standards
                                                                                                 and  Tech   nology,
               이미지의 중심에 배치되어 있다. 그리고 각 픽셀의 값은 0부터 255까지의 정수의 값                                   NIST)에서 수집한 숫
                                                                                                 자  데이터로  이루어져
               을 갖는 회색조 이미지이다.
                                                                                                 있다. 0부터 9까지의 손
                                                                                                 글씨 자료로서 6만 개의
                                                                                                 훈련 이미지와 1만 개의
                                                                                                 테스트 이미지로 구성되
                                                                                                 어 있다.






                                            MNIST 데이터 셋의 숫자 이미지 예시


                 MNIST 손 글씨 데이터를 활용하여 이미지를 분류하는 인공지능 원리를 알아보자.
                                                                                                   미국의 수학자
                 손 글씨로 쓴 숫자와 MNIST 데이터 셋의 숫자가 서로 비슷한지 아니면 서로 다른                                   해밍의 이름을 딴
                                                                                                  거리 표현 방식을
               지를 판별하는 방법으로 행렬 간 유사도를 확인하는 것이 있다. 이때 사용되는 대표적                                    해밍 거리라고 해요!
               인 방법이 해밍 거리이다.

                 해밍 거리는 두 개의 길이가 같은 문자열 사이의 거리이다. 즉 같은 길이의 두 문자열

               이 주어졌을 때, 같은 위치에 있는 서로 다른 문자들의 개수를 구하여 거리로 표시한다.
                 예를 들어 두 숫자 0, 1로만 이루어진 네 문자열 S_1, S_2, S_3, S_4가 있다고 하자.
               [그림 Ⅲ-1]과 같이 두 문자열 S_1, S_2에서 같은 위치에 있는 서로 다른 문자는 3개이

               므로 해밍 거리는 3이다. [그림 Ⅲ-2]의 두 문자열 S_3, S_4의 해밍 거리도 같은 방법으
               로 구하면 7이다.

                 이것은 문자열 S_1과 S_2가 3개의 위치에서 값이 서로 다르다는 의미이고, 문자열 S_3
               와 S_4는 7개의 위치에서 값이 서로 다르다는 의미이다.





               SÁ   1   0  1   1   0   0   1   0   0   1    S£  1   1   1   1   1   1   1   1   0   1





               Sª   1   0  0   1   0   0   0   0   1   1    S¢  1   0   0   1   0   0   0   0   1   1



                                  [그림 Ⅲ-1]                                     [그림 Ⅲ-2]



                                                                                                 1. 자료의 분류   83
   80   81   82   83   84   85   86   87   88   89   90