spellcheck-ko / galkwiki-bots Goto Github PK
View Code? Open in Web Editor NEWgalkwiki 데이터 관리 스크립트 (OBSOLETE)
License: GNU General Public License v3.0
galkwiki 데이터 관리 스크립트 (OBSOLETE)
License: GNU General Public License v3.0
맞춤법 검사에 필요한 데이터와는 무관한 사항
우리말샘 다운로드 데이터에서 웹폰트에 의존하는 부분이 있다. "korean-webfont" CSS를 사용하는 태그가 노출됨.
반대말 쇄폐(<span class="korean-webfont">鎖閉), 폐쇄(閉<span class="korean-webfont">鎖)
이 문자 코드가 PUA 영역을 사용하지 않는다면 해당 문자로 대체하면 된다. PUA 영역의 경우에는 웹 폰트에서 사용하는 글리프가 무엇인지 확인하고 대체 코드를 찾아야 한다.
참고:
https://opendict.korean.go.kr//css/2015_webfont.css
https://opendict.korean.go.kr//css/font/korean_dic.ttf
PUA 부분
실제 사용하는 코드는 다음이 전부:
U+E000
U+E004
U+E005
U+E008
U+E00B
U+E011
U+E014
U+E01D => ɔ͂
U+E01E => ɛ͂
U+E01F => n̄
U+E020 => 𝆑𝆑𝆑
U+E021 => 𝆑𝆑
U+E022 => 𝆑𝆏
U+E023 => 𝆑𝆎
U+E024 => ▞
U+E025 => ▚
U+E026 => 、
U+E027 (획 모양을 나타내는 기호)
U+E028 (乙 새을자가 아니라 중복을 나타내는 기호)
U+E029 (악기 모양을 나타내기 위한 기호)
U+E02C => ᅟᅵᇰ
U+E02E => 타ᇦ
맞춤법 검사에 필요한 데이터와는 무관한 사항
곳곳에 U+3000이 들어 있는데 일반 공백 대신에 쓰여 있기도 하고 공백이 들어가면 안 되는 위치에 있기도 하다.
'규범 정보' 항목의 끝에 U+3000 IDEOGRAPHIC SPACE 문자가 들어 있다.
('규범 정보', '유형 표준어\n관련 조항 표준어 규정 제26항\n설명 한 가지 의미를 나타내는 형태 몇 가지가 널리 쓰이며 표준어 규정에 맞으면 그 모두를 표준어로 삼는다. 따라서 ‘뻐끔’과 ‘뻐끔히’는 모두 표준어이다.\u3000')
나머지 사항은 우리말샘 사이트에서 편집을 통해 수정하는 편이 바람직.
'관련 어휘', '비슷한말 두개골^절개(頭蓋骨切開\u3000)'
준 대로 적으므로 ‘기다랗-+-ㄴ’은 ‘기다란’으로, ‘기다랗-+-네’는 ‘기다라네’로\u3000적어야 한다.
우리말샘의 문제이기도 하지만, 표준 인코딩이 아니라 한양 PUA를 사용한 부분이 있다.
hypua2jamo 사용: https://pypi.python.org/pypi/hypua2jamo
웹페이지 렌더링 결과를 export하면서 잘못된 것으로 보인다.
"속담"인 경우:
"속담 속담 속담 거미는 작아도 줄만 잘 친다
모양은 비록 작아도 제 할 일은 다 한다는 말. <동의 속담> ‘제비는 작아도 강남(을) 간다’ ‘제비는 작아도 알만 낳는다’
거미도 줄을 쳐야 벌레를 잡는다
무슨 일이든지 거기 필요한 준비가 있어야 그 결과를 얻을 수 있다는 말. <동의 속담> ‘잎거미도 줄을 쳐야 벌레를 잡는다’
거미 줄 따르듯
밀접한 관계가 있어서 서로 떨어지지 않고 따라다닌다는 말."
겨터파크, 뇌섹남, 오덕후 등등 우리말샘 사이트가 오픈한 직후 시점에 신조어/유행어들이 대거 입력되어 있다. 언어는 변화하는 것이기 때문에 이런 단어가 무작정 틀렸다고 볼 수는 없지만, 다른 단어와 비슷한 경우 정상적인 동작에 방해가 될 수 있어서 제외해야 할 수도 있다.
자주 사용되는 단어는 우리말샘과 같이 운영되는 한국어기초사전에서 알 수 있다. https://krdict.korean.go.kr/ 약 5만 단어. 경계를 벗어난 애매한 단어들이 문제.
'관련 어휘'의 경우 다른 엔트리에 대한 레퍼런스 정보가 들어 있어야 할 관련 어휘에 그냥 텍스트만 들어 있다. 동음이의어 같은 경우 정확한 레퍼런스를 할 수 없다.
'규범 정보'의 경우 웹의 태그가 일부 남아 있다.
('규범 정보', '유형 순화\n관련 조항 행정 용어 순화 편람(1993년 2월 12일)\n설명 ‘<a href="#" class="wordPageView" onclick="javascript:fnWordInfoView(\'sense\', \'4851\');" >괴뢰</a>’와 ‘<a href="#" class="wordPageView" onclick="javascript:fnWordInfoView(\'sense\', \'331656\');" >꼭두각시</a>’를 함께 쓸 수 있다고 되어 있다.')
'뜻풀이'의 경우에는 <word_no>라는 태그가 남아 있는데 한 개 단어가 아니라 다음 단어 목록을 레퍼런스하는데 쓰이고 있다.
('뜻풀이', '‘<word_no>459507</word_no>연금’의 북한어.')
우리말샘 사이트에도 레퍼런스가 있는 경우도 있고 그냥 텍스트만 있는 경우도 있다.
한국어기초사전 (https://krdict.korean.go.kr/) 사이트에서 다운로드한 XML은 레퍼런스 정보가 제대로 ID 형태로 기록되어 있다!
<SenseRelation>
<feat att="type" val="반대말" />
<feat att="id" val="71534" />
<feat att="lemma" val="음성" />
<feat att="homonymNumber" val="2" />
</SenseRelation>
웹에는 없는데 다운로드에는 있는 정보도 있다.
"거미" 어원
<거믜<구방>
--
https://opendict.korean.go.kr/dictionary/view?sense_no=560207&viewType=confirm
맞춤법 검사에 필요한 데이터와는 무관한 사항
한양 PUA나 우리말샘 자체 웹폰트(#2 )에서도 커버하지 못하는 PUA 코드. 알려진 윈도우 기본 폰트에는 없는 글리프. 이 항목을 작성했던 사람의 컴퓨터에 설치되어 있던 특정 폰트의 글리프일 가능성 높음.
U+F0854 U+F0855
https://opendict.korean.go.kr/dictionary/view?sense_no=498182&viewType=confirm
... 가례언해에만 ...
U+E069
https://opendict.korean.go.kr/dictionary/view?sense_no=387897&viewType=confirm
aum
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.