Page 38 - 인공지능 수학 교과서
P. 38

▶ 상대도수는 도수의 총합         댓글 A와 B에 포함된 단어의 상대도수를 구하여 표로 나타내면 다음과 같다.
              에 대한 각 계급의 도수
              의 비율이다. 빈도수 벡터     A                                                                          B
                                     단어     마스크     착용      정말     중요     예방      효과    반드시     최고      합계
              로부터 ‘상대도수를 성
              분으로 하는 벡터’를 구         댓글 A      4      4       2      1      2       2      1      0      16
              하기 위해서는 전체 성
                                                                                          ¡
                                                                     ¡
              분의 총합에 대한 각 성        상대도수       ;4!;   ;4!;   ;8!;   ;16;    ;8!;   ;8!;   ;16;    0       1
              분의  비율을  계산하면
                                    댓글 B      2      2       0      0      0       0      0      1       5
              된다.
                                   상대도수       ;5@;   ;5@;    0      0      0       0      0      ;5!;    1


                                   상대도수를 소수로 표현하여 벡터의 각 성분으로 나타내면 각 댓글 내 단어의 비중

                                 을 좀 더 정확하게 확인할 수 있다.

               ‘단어별 상대도수를                      댓글 A의 단어별 상대도수 벡터
              성분으로 하는 벡터’를
             ‘상대도수 벡터’라고 해요.                       (0.25, 0.25, 0.125, 0.0625, 0.125, 0.125, 0.0625, 0)
                                               댓글 B의 단어별 상대도수 벡터

                                                   (0.4, 0.4, 0, 0, 0, 0, 0, 0.2)


                                   두 단어 ‘마스크’와 ‘착용’에 대한 상대도수는 댓글 A에서 0.25인 데 비하여 댓글

                                 B에서는 0.4로 더 크다는 것을 알 수 있다. 이는 단어를 사용한 횟수는 댓글 A가 더 많
                                 지만 텍스트 자료 안에서 사용된 비중은 오히려 댓글 B가 더 크다는 것을 의미한다.
                                   이와 같이 주요 단어나 주제어를 파악할 때, 단어의 빈도수와 상대도수를 함께 사용

                                 하는 것이 더 바람직하다.



                                    예제 2

                                    오른쪽 표는 두 개의 문장 A, B에서 ‘발전’, ‘윤리’            A                         B
                                                                                     단어         발전    윤리
                                    가 포함된 빈도수를 나타낸 것이다. 표를 보고 물음
                                                                                 문장 A의 빈도수       5     1
                                    에 답하시오.
                                                                                 문장 B의 빈도수       9     2
                                    (1) ‘발전’, ‘윤리’ 단어에 대한 두 문장 A, B의 상대
                                        도수 벡터를 구하시오.
                                    (2) 문장 A, B 중에서 ‘윤리’ 단어에 대한 상대도수가 더 큰 문장을 구하시오.



                                    풀이

                                    (1)  문장 A의 단어별 상대도수 벡터   {;6%;  , ;6!;}
                                                                       ™
                                           문장 B의 단어별 상대도수 벡터   {;11;  , ;11;}
                                                                   ª
                                    (2) ;6!;   < ;1™1; 이므로 ‘윤리’ 단어에 대한 상대도수는 B가 A보다 크다.
                                                                                    답    (1) 풀이 참조   (2) 문장 B



            36    Ⅱ.  자료의 표현
   33   34   35   36   37   38   39   40   41   42   43