한글 출현빈도, 알파벳 출현 빈도. | ETC

앞의 글에서 한글 1 문자를 표현하는 데에 2byte가 필요하다는 것을 언급했다.

그런데 이것은 비효율적이다.
수많은 한글 문자들을 표현하기 위해 쓰고 있기는 하지만.

얼마나 비효율적인가.
다음 표를 보면 한눈에 알 수 있다.

코드 한글 출현 비율 누계
0020   = 272486 24.98132035 24.98132035
C774 = 27732 2.542449799 27.52377015
B2E4 = 26923 2.468281261 29.99205141
002E . = 26636 2.441969308 32.43402071
B294 = 22706 2.081669736 34.51569045
ADF8 = 15744 1.443398588 35.95908904
AC00 = 15351 1.40736863 37.36645767
ACE0 = 15213 1.39471689 38.76117456
C744 = 15169 1.390683001 40.15185756
C5D0 = 13812 1.266274218 41.41813178
C9C0 = 13051 1.196506286 42.61463806
C5B4 = 11150 1.022223974 43.63686204
B098 = 10720 0.982801884 44.61966392
D558 = 10402 0.953647873 45.57331179
C758 = 10339 0.947872078 46.52118387
C544 = 10119 0.927702636 47.44888651
C740 = 9742 0.893139548 48.34202606
B3C4 = 8841 0.810536516 49.15256257
B9AC = 8705 0.798068134 49.95063071
C11C = 8585 0.787066621 50.73769733
B85C = 8379 0.768180689 51.50587802
D55C = 7983 0.731875694 52.23775371
B97C = 7907 0.724908069 52.96266178
002C , = 7794 0.71454831 53.67721009
C5C8 = 7676 0.703730155 54.38094024
AE30 = 7404 0.678793391 55.05973364
B4E4 = 7065 0.647714115 55.70744775
C788 = 6518 0.597565548 56.3050133
B2C8 = 6320 0.579413051 56.88442635
C790 = 6241 0.572170388 57.45659674
AC8C = 6109 0.560068723 58.01666546
C0AC = 6013 0.551267512 58.56793297
AC83 = 5640 0.51707114 59.08500411
B77C = 5611 0.514412441 59.59941655
C73C = 5160 0.473065086 60.07248164

36 빈출 문자
코드: UTF-16 BE 코드.

어떤 문서가 있을 때, 그것이 한글 문서라면 단 36문자만으로 그 문서의 60%를 나타낼 수 있다.
1byte를 모두 활용해서 한글 문서를 나타낸다면,
256문자로 문서의 89%를 표현할 수 있다.

하지만 결국 1byte로 모든 문자를 표현할 수 없고,
영어권에서 컴퓨터가 개발되었기 때문에 한글에 1byte라는 것은 불가능한 이야기가 되어버렸다.

음.. 깊이 생각해본건 아니지만,
초성, 중성, 종성의 우리 한글은 이진데이터와 딱 떨어지지 않는다.


-- 참고자료 --
한글 문서 내 빈도.(총 2323문자 출현)
측정방식: 무작위 한글 현대소설 63종을 30kb씩 잘라서 측정함.
이유: 특정 문서 내 빈출단어 경계.
보완: 신문 기사와 소설 비율을 같게 해서 동일 방식으로 측정하면 좀 더 나은 결과가 나올 것이다.

알파벳 문서 내 빈도. (총 97문자 출현)
측정방식: 무작위 영어소설 33종을 60kb씩 잘라서 측정함
이유: 한글 측정과 같다
보완: 한글 측정과 같다

첨부파일.
http://ailvastar.tistory.com/attachment/cfile1.uf@19447C0F4A83A0C3032A44.xltx


참고.
빈출 알파벳 36문자.
코드 문자 출현 비율 누계
0020   = 387362 19.7841609 19.7841609
0065 e = 174919 8.933828411 28.71798932
0074 t = 124483 6.357855705 35.07584502
0061 a = 109209 5.577750084 40.65359511
006F o = 105176 5.371768287 46.02536339
006E n = 96967 4.952501098 50.97786449
002E . = 96149 4.910722494 55.88858698
0069 i = 95350 4.869914298 60.75850128
0073 s = 89104 4.550905544 65.30940683
0072 r = 81905 4.183223184 69.49263001
0068 h = 80167 4.094456418 73.58708643
0064 d = 54799 2.798808952 76.38589538
006C l = 54571 2.78716406 79.17305944
0063 c = 37894 1.935401493 81.10846093
0075 u = 37138 1.896789483 83.00525042
006D m = 34074 1.740298477 84.74554889
0066 f = 32043 1.636567004 86.3821159
0077 w = 26958 1.376855266 87.75897116
0079 y = 25600 1.307496655 89.06646782
0067 g = 25326 1.293502355 90.35997017
0070 p = 24518 1.252234491 91.61220466
002C , = 21276 1.086652298 92.69885696
0062 b = 19418 0.991756642 93.6906136
0076 v = 13885 0.709163713 94.39977732
006B k = 8952 0.457215236 94.85699255
0049 I = 8744 0.446591826 95.30358438
0054 T = 7995 0.408337334 95.71192171
0041 A = 5704 0.291326598 96.00324831
0022 " = 5628 0.287444968 96.29069328
003F ? = 5379 0.27472752 96.5654208
0045 E = 4952 0.252918884 96.81833968
0048 H = 3860 0.19714598 97.01548566
0053 S = 3854 0.196839535 97.2123252
004F O = 3395 0.173396529 97.38572173
0043 C = 3276 0.167318713 97.55304044
,