사전 - 표준국어대사전 만들기 (스타딕, 컬러딕, 골든딕 / StarDict, ColorDict, GoldenDict) | Util

Permission:On
<표준국어대사전 만들기, (스타딕, 컬러딕, 골든딕, / StarDict, iStarDict, ColorDict, GoldenDict)>

국립 국어원 공식 홈페이지: http://stdweb2.korean.go.kr/

핸드폰을 바꿨다.
스마트폰을 사용한지 다섯달 쯤 되었지만 아직도 루팅 같은건 익숙지 않다.
사전을 깔아봐야겠다는 생각이 들었다.
그러던 중 국립국어원의 표준국어대사전 자료를 개인적으로 사전으로 만드는 방법이 적힌 블로그를 봤다.
;;;
http://offree.net/plugin/print/?id=2737
그리고 위 자료를 수정해서 사전으로 만드는 방법을 적은 소개글.
웹사전_클리핑으로_표준국어대사전_만들기.exe by 카오스
(이 자리를 빌어 위 정보에 대한 감사의 마음을 표한다.)

순간 화가 났다.
완전 복잡하더라.
더군다나 20시간 정도 걸린다니...
작업 중간중간  오류가 날 수도 있다니!!!

화가 나는 것은 정보에 대한 감사와는 다른 문제이다.

나는 정말 사전 데이터가 갖고 싶었다.

그래서 표준국어대사전을 추출하는 프로그램 만들기로 했다.

우선 작업 도중 설명글에 소개된 프로그램으로 체크해보니 정상적인 결과가 나오지 않았다.
아... 이걸 몰라서 날린 시간이 얼마던가;;
아무리 해 봐도 안 되길래 GoldenDict로 읽어보니 제대로 보이더라.

그런데 StarDict와는 다르게 GoldenDict는 절대 경로를 사용해야 한다는 문제점이 보였다.
제-엔-장.
상대경로를 절대경로로 바꾸는 것은 어려운 일이 아니지만
호환성을 생각한다면 상대경로가 절.대.적으로 유리하다.

안드로이드에서 StarDict 기반 사전을 사용할 수 있는 프로그램 중에서는 ColorDict 가 가장 유명한 듯 하다.
하지만 ColorDict는 하나의 표제어에 여러개의 단어가 있을 경우, 일부 결과물만 보여준다.
다른 문제가 얼마나 있을지는 모르겠지만, 이 문제 하나만으로도 ColorDict는 생각하지 않기로 했다.

그리고 GoldenDict.
무료 버전으로는 항상 화면에 광고가 떠 있다.
ColorDict와는 다르게 단어 점프 기능(화면에 있는 단어를 클릭하면 해당 단어로 이동하는 기능)을 갖추고 있다.
가장 큰 문제인 절대경로를 사용한다는 것은;;;
어차피 여러번 할 것도 아닌데, 한번 작업해주기로 했다.
그런데, 이렇게 절대경로를 지정해도 PC 버전에서는 그림이 보이지만, 안드로이드에서는 여전히 해결되지 않는다.
이 문제에 대한 지적이 1~2년 전부터 나온듯 한데, 고쳐지지 않는걸 보면 제작자가 손을 놓은 것 같다는 생각도 든다.


요즘 인터넷이 느린 곳에 살아서... 작업을 완료하는 데 상당한 시간이 소모되었다.
400 Mb가 넘는 사전 데이터와 100 Mb가 넘는 그림 파일.
그림이야 압축해봐야 소용 없지만 문서는 압축하니 40 Mb도 안 나오더라.
아무튼, 사전 데이터를 모으기 위해서 약 5 Gb 정도의 다운로드가 필요할 것으로 보인다.
총 20개의 실행파일로 분할해서 다운 받는 이유는...
인터넷 속도 빠른 곳에서의 작업 속도를 높이기 위함이다.

다운로드 이후의 작업도 상당히 시간이 오래 걸린다.
이유는, 표준국어대사전 DB가 들쭉날쭉하기 때문이다.
처음 만들 때부터 정렬이라는 것은 생각지도 않았던 것 같다.
나중에 추가되거나 중간에 빠진 단어는 그렇다 치더라도,
적어도 40만번 정도까지는 순서대로 되어 있었어야 하는것 아닌가.
세금 쏟아 부어서 회식하는 데에 다 쓴건가?
DB 정리하고 홈페이지 정리하는 데 100만원만 더 썼어도 지금보다는 훨씬 나았을 것이다.
제발 좀 써주세요 하고 잘 포장해서 배포해도 모자랄 판에,
저작권이 지들에게 있다고 겁주고는 제대로 사용도 못하게 하다니.
미친거 아니야?
더군다나 키보드로는 입력할 수 없는 단어들이 상당히 많은데,
무슨 생각으로 색인도 안 만든건지 모르겠다.
아, 진짜 표준국어대사전 예산 낭비한 놈들 다 제대로 조사해 봐야해.
(이런 시스템적 문제 말고, 표준국어대사전 관련 비판은 따로 찾아보기 바란다.)
아무튼, 내 컴퓨터에서는 400 Mb가 넘는 파일을 읽어서 한번에 정렬을 못 하더라.


0. 해당 자료를 다운 받아서 특정 폴더에 압축을 푼다. ( C:\Dict 추천 - 물론 나는 이런식으로 하지 않지만...)
1. 01 - down.exe 실행
2. 다운 완료 후 02 - sort.exe 실행
3. 03. making.exe 실행 - stardict-editor - Browse 선택 - ksd.txt 선택 - Build 클릭 (옵션은 기본 적용된 Tab file 을 그대로 사용한다.)


<완료된 화면>

4. 04 - complete.exe 실행.
5. 휴대폰 sdcard 에 dictdata 생성
ksd.dict
ksd.idx
ksd.ifo
ksd 폴더 복사

끝났다.
초등학생도 보고 따라할 수 있게 만들어 놨으니 어지간한 질문은 삼가주기 바란다.
ColorDict 의 불안정성과 GoldedDict 의 이미지 표현 문제에 대해서는 위에도 적었듯이 나 역시 모른다.

프로그래밍을 잘 하는 것도 아니고, 그렇다고 안드로이드에 대한 지식이 있는 것도 아니며,
사전 프로그램에 대한 지식도 전혀 없는 상태에서 시작했기 때문에 상당히 오랜 시간이 걸린 작업이었다.
설명에 까칠한 부분이 있었다 하더라도 그러려니 하길 바란다.

언제나 그렇듯이 Windows XP 이외의 운영체제에서의 동작은 테스트해보지 못했고,
특정 프로그램은 포함된 실행파일들을 바이러스 프로그램으로 감지할 수도 있다.
메모리가 부족하다면 작업 도중 중단될 수 있으니 되도록 작업할 때에는 컴퓨터를 쉬게 해 두는 것을 권하는 바이다.





덧붙임.
이렇게 사전을 만드는 방법이 알려진 것이 2년이 넘었는데,
아직까지 자료가 돌아다니지 않는걸 보면 다들 저작권 문제로 공유하지 않는듯 하다.
나도 저작권에 대해 잘 모르고, 위험을 감수할 의향이 없다.
따라서 완성된 파일을 요청해도 답하지 않을 것이다.
또한 본 게시글이 저작권에 저촉된다면 Permission:Off 로 바뀌게 될 것이다.




2012.2.20
스크립트로만 돌려보다가 오늘 실행파일로 돌려보니 문제가 있더군요.
아직 피드백 주신 분이 없는 것으로 보아서 아무도 안 써보신듯;;;
수정본은 다음에 올려야겠습니다.
,