한글 출현빈도, 알파벳 출현 빈도. | ETC
>2009. 8. 13. 14:15
앞의 글에서 한글 1 문자를 표현하는 데에 2byte가 필요하다는 것을 언급했다.
그런데 이것은 비효율적이다.
수많은 한글 문자들을 표현하기 위해 쓰고 있기는 하지만.
얼마나 비효율적인가.
다음 표를 보면 한눈에 알 수 있다.
36 빈출 문자
그런데 이것은 비효율적이다.
수많은 한글 문자들을 표현하기 위해 쓰고 있기는 하지만.
얼마나 비효율적인가.
다음 표를 보면 한눈에 알 수 있다.
코드 | 한글 | 출현 | 비율 | 누계 | |
0020 | = | 272486 | 24.98132035 | 24.98132035 | |
C774 | 이 | = | 27732 | 2.542449799 | 27.52377015 |
B2E4 | 다 | = | 26923 | 2.468281261 | 29.99205141 |
002E | . | = | 26636 | 2.441969308 | 32.43402071 |
B294 | 는 | = | 22706 | 2.081669736 | 34.51569045 |
ADF8 | 그 | = | 15744 | 1.443398588 | 35.95908904 |
AC00 | 가 | = | 15351 | 1.40736863 | 37.36645767 |
ACE0 | 고 | = | 15213 | 1.39471689 | 38.76117456 |
C744 | 을 | = | 15169 | 1.390683001 | 40.15185756 |
C5D0 | 에 | = | 13812 | 1.266274218 | 41.41813178 |
C9C0 | 지 | = | 13051 | 1.196506286 | 42.61463806 |
C5B4 | 어 | = | 11150 | 1.022223974 | 43.63686204 |
B098 | 나 | = | 10720 | 0.982801884 | 44.61966392 |
D558 | 하 | = | 10402 | 0.953647873 | 45.57331179 |
C758 | 의 | = | 10339 | 0.947872078 | 46.52118387 |
C544 | 아 | = | 10119 | 0.927702636 | 47.44888651 |
C740 | 은 | = | 9742 | 0.893139548 | 48.34202606 |
B3C4 | 도 | = | 8841 | 0.810536516 | 49.15256257 |
B9AC | 리 | = | 8705 | 0.798068134 | 49.95063071 |
C11C | 서 | = | 8585 | 0.787066621 | 50.73769733 |
B85C | 로 | = | 8379 | 0.768180689 | 51.50587802 |
D55C | 한 | = | 7983 | 0.731875694 | 52.23775371 |
B97C | 를 | = | 7907 | 0.724908069 | 52.96266178 |
002C | , | = | 7794 | 0.71454831 | 53.67721009 |
C5C8 | 었 | = | 7676 | 0.703730155 | 54.38094024 |
AE30 | 기 | = | 7404 | 0.678793391 | 55.05973364 |
B4E4 | 들 | = | 7065 | 0.647714115 | 55.70744775 |
C788 | 있 | = | 6518 | 0.597565548 | 56.3050133 |
B2C8 | 니 | = | 6320 | 0.579413051 | 56.88442635 |
C790 | 자 | = | 6241 | 0.572170388 | 57.45659674 |
AC8C | 게 | = | 6109 | 0.560068723 | 58.01666546 |
C0AC | 사 | = | 6013 | 0.551267512 | 58.56793297 |
AC83 | 것 | = | 5640 | 0.51707114 | 59.08500411 |
B77C | 라 | = | 5611 | 0.514412441 | 59.59941655 |
C73C | 으 | = | 5160 | 0.473065086 | 60.07248164 |
36 빈출 문자
코드: UTF-16 BE 코드.
256문자로 문서의 89%를 표현할 수 있다.
하지만 결국 1byte로 모든 문자를 표현할 수 없고,
영어권에서 컴퓨터가 개발되었기 때문에 한글에 1byte라는 것은 불가능한 이야기가 되어버렸다.
음.. 깊이 생각해본건 아니지만,
초성, 중성, 종성의 우리 한글은 이진데이터와 딱 떨어지지 않는다.
-- 참고자료 --
한글 문서 내 빈도.(총 2323문자 출현)
측정방식: 무작위 한글 현대소설 63종을 30kb씩 잘라서 측정함.
이유: 특정 문서 내 빈출단어 경계.
보완: 신문 기사와 소설 비율을 같게 해서 동일 방식으로 측정하면 좀 더 나은 결과가 나올 것이다.
알파벳 문서 내 빈도. (총 97문자 출현)
측정방식: 무작위 영어소설 33종을 60kb씩 잘라서 측정함
이유: 한글 측정과 같다
보완: 한글 측정과 같다
첨부파일.
http://ailvastar.tistory.com/attachment/cfile1.uf@19447C0F4A83A0C3032A44.xltx
참고.
빈출 알파벳 36문자.
어떤 문서가 있을 때, 그것이 한글 문서라면 단 36문자만으로 그 문서의 60%를 나타낼 수 있다.
1byte를 모두 활용해서 한글 문서를 나타낸다면,256문자로 문서의 89%를 표현할 수 있다.
하지만 결국 1byte로 모든 문자를 표현할 수 없고,
영어권에서 컴퓨터가 개발되었기 때문에 한글에 1byte라는 것은 불가능한 이야기가 되어버렸다.
음.. 깊이 생각해본건 아니지만,
초성, 중성, 종성의 우리 한글은 이진데이터와 딱 떨어지지 않는다.
-- 참고자료 --
한글 문서 내 빈도.(총 2323문자 출현)
측정방식: 무작위 한글 현대소설 63종을 30kb씩 잘라서 측정함.
이유: 특정 문서 내 빈출단어 경계.
보완: 신문 기사와 소설 비율을 같게 해서 동일 방식으로 측정하면 좀 더 나은 결과가 나올 것이다.
알파벳 문서 내 빈도. (총 97문자 출현)
측정방식: 무작위 영어소설 33종을 60kb씩 잘라서 측정함
이유: 한글 측정과 같다
보완: 한글 측정과 같다
첨부파일.
http://ailvastar.tistory.com/attachment/cfile1.uf@19447C0F4A83A0C3032A44.xltx
참고.
빈출 알파벳 36문자.
코드 | 문자 | 출현 | 비율 | 누계 | |
0020 | = | 387362 | 19.7841609 | 19.7841609 | |
0065 | e | = | 174919 | 8.933828411 | 28.71798932 |
0074 | t | = | 124483 | 6.357855705 | 35.07584502 |
0061 | a | = | 109209 | 5.577750084 | 40.65359511 |
006F | o | = | 105176 | 5.371768287 | 46.02536339 |
006E | n | = | 96967 | 4.952501098 | 50.97786449 |
002E | . | = | 96149 | 4.910722494 | 55.88858698 |
0069 | i | = | 95350 | 4.869914298 | 60.75850128 |
0073 | s | = | 89104 | 4.550905544 | 65.30940683 |
0072 | r | = | 81905 | 4.183223184 | 69.49263001 |
0068 | h | = | 80167 | 4.094456418 | 73.58708643 |
0064 | d | = | 54799 | 2.798808952 | 76.38589538 |
006C | l | = | 54571 | 2.78716406 | 79.17305944 |
0063 | c | = | 37894 | 1.935401493 | 81.10846093 |
0075 | u | = | 37138 | 1.896789483 | 83.00525042 |
006D | m | = | 34074 | 1.740298477 | 84.74554889 |
0066 | f | = | 32043 | 1.636567004 | 86.3821159 |
0077 | w | = | 26958 | 1.376855266 | 87.75897116 |
0079 | y | = | 25600 | 1.307496655 | 89.06646782 |
0067 | g | = | 25326 | 1.293502355 | 90.35997017 |
0070 | p | = | 24518 | 1.252234491 | 91.61220466 |
002C | , | = | 21276 | 1.086652298 | 92.69885696 |
0062 | b | = | 19418 | 0.991756642 | 93.6906136 |
0076 | v | = | 13885 | 0.709163713 | 94.39977732 |
006B | k | = | 8952 | 0.457215236 | 94.85699255 |
0049 | I | = | 8744 | 0.446591826 | 95.30358438 |
0054 | T | = | 7995 | 0.408337334 | 95.71192171 |
0041 | A | = | 5704 | 0.291326598 | 96.00324831 |
0022 | " | = | 5628 | 0.287444968 | 96.29069328 |
003F | ? | = | 5379 | 0.27472752 | 96.5654208 |
0045 | E | = | 4952 | 0.252918884 | 96.81833968 |
0048 | H | = | 3860 | 0.19714598 | 97.01548566 |
0053 | S | = | 3854 | 0.196839535 | 97.2123252 |
004F | O | = | 3395 | 0.173396529 | 97.38572173 |
0043 | C | = | 3276 | 0.167318713 | 97.55304044 |
'ETC' 카테고리의 다른 글
티스토리 블로그에 싸이월드 배경음악을 달자. (14) | 2009.08.17 |
---|---|
Macro Express, AutoHotkey, Autoit (1) | 2009.08.13 |
문자 저장 방식 UTF8, UTF16 에 대한 기본적 이해 (1) | 2009.08.13 |
이 여인이 어느 방향으로 돌고 있는가? (0) | 2008.08.30 |
남자 향수 15종 시향 (0) | 2008.07.10 |