Git Product home page Git Product logo

galkwiki-bots's People

Stargazers

 avatar

Watchers

 avatar  avatar

Forkers

hyeongjoon

galkwiki-bots's Issues

우리말샘: 전용 웹폰트 사용 부분

맞춤법 검사에 필요한 데이터와는 무관한 사항

우리말샘 다운로드 데이터에서 웹폰트에 의존하는 부분이 있다. "korean-webfont" CSS를 사용하는 태그가 노출됨.

반대말 쇄폐(<span class="korean-webfont">&#x9396;閉), 폐쇄(閉<span class="korean-webfont">&#x9396;)

이 문자 코드가 PUA 영역을 사용하지 않는다면 해당 문자로 대체하면 된다. PUA 영역의 경우에는 웹 폰트에서 사용하는 글리프가 무엇인지 확인하고 대체 코드를 찾아야 한다.

참고:

https://opendict.korean.go.kr//css/2015_webfont.css
https://opendict.korean.go.kr//css/font/korean_dic.ttf

PUA 부분

webfont

실제 사용하는 코드는 다음이 전부:

U+E000
U+E004
U+E005
U+E008
U+E00B
U+E011
U+E014
U+E01D => ɔ͂
U+E01E => ɛ͂
U+E01F => n̄
U+E020 => 𝆑𝆑𝆑
U+E021 => 𝆑𝆑
U+E022 => 𝆑𝆏
U+E023 => 𝆑𝆎
U+E024 => ▞
U+E025 => ▚
U+E026 => 、
U+E027 (획 모양을 나타내는 기호)
U+E028 (乙 새을자가 아니라 중복을 나타내는 기호)
U+E029 (악기 모양을 나타내기 위한 기호)
U+E02C => ᅟᅵᇰ
U+E02E => 타ᇦ
  • 한자의 경우 옥편을 찾아도 안 나오는 글자가 많은데 유니코드 CJK Ideograph Extension 영역에 있을 가능성도 있고, 아예 없을 수도 있다.

우리말샘: U+3000 공백

맞춤법 검사에 필요한 데이터와는 무관한 사항

곳곳에 U+3000이 들어 있는데 일반 공백 대신에 쓰여 있기도 하고 공백이 들어가면 안 되는 위치에 있기도 하다.

'규범 정보' 항목의 끝에 U+3000 IDEOGRAPHIC SPACE 문자가 들어 있다.

('규범 정보', '유형 표준어\n관련 조항 표준어 규정 제26항\n설명 한 가지 의미를 나타내는 형태 몇 가지가 널리 쓰이며 표준어 규정에 맞으면 그 모두를 표준어로 삼는다. 따라서 ‘뻐끔’과 ‘뻐끔히’는 모두 표준어이다.\u3000')

나머지 사항은 우리말샘 사이트에서 편집을 통해 수정하는 편이 바람직.

'관련 어휘', '비슷한말 두개골^절개(頭蓋骨切開\u3000)'
준 대로 적으므로 ‘기다랗-+-ㄴ’은 ‘기다란’으로, ‘기다랗-+-네’는 ‘기다라네’로\u3000적어야 한다.

우리말샘: 속담 및 관용구 포맷 잘못

웹페이지 렌더링 결과를 export하면서 잘못된 것으로 보인다.

"속담"인 경우:

  • "속담 "을 속담 개수만큼 반복
  • 속담 문장, 다음 설명 (예문)
  • 속담 사이에 빈 줄
"속담 속담 속담 거미는 작아도 줄만 잘 친다
모양은 비록 작아도 제 할 일은 다 한다는 말. <동의 속담> ‘제비는 작아도 강남(을) 간다’ ‘제비는 작아도 알만 낳는다’

거미도 줄을 쳐야 벌레를 잡는다
무슨 일이든지 거기 필요한 준비가 있어야 그 결과를 얻을 수 있다는 말. <동의 속담> ‘잎거미도 줄을 쳐야 벌레를 잡는다’

거미 줄 따르듯
밀접한 관계가 있어서 서로 떨어지지 않고 따라다닌다는 말."

우리말샘: 지나친 신조어 처리

겨터파크, 뇌섹남, 오덕후 등등 우리말샘 사이트가 오픈한 직후 시점에 신조어/유행어들이 대거 입력되어 있다. 언어는 변화하는 것이기 때문에 이런 단어가 무작정 틀렸다고 볼 수는 없지만, 다른 단어와 비슷한 경우 정상적인 동작에 방해가 될 수 있어서 제외해야 할 수도 있다.

  • 사용 빈도에 대한 데이터를 추가하거나
  • 특별히 블랙리스트 속성을 집어 넣어서 제외

자주 사용되는 단어는 우리말샘과 같이 운영되는 한국어기초사전에서 알 수 있다. https://krdict.korean.go.kr/ 약 5만 단어. 경계를 벗어난 애매한 단어들이 문제.

우리말샘: 다른 어휘 레퍼런스 알기 어려움

'관련 어휘'의 경우 다른 엔트리에 대한 레퍼런스 정보가 들어 있어야 할 관련 어휘에 그냥 텍스트만 들어 있다. 동음이의어 같은 경우 정확한 레퍼런스를 할 수 없다.

'규범 정보'의 경우 웹의 태그가 일부 남아 있다.

('규범 정보', '유형 순화\n관련 조항 행정 용어 순화 편람(1993년 2월 12일)\n설명 ‘<a href="#" class="wordPageView" onclick="javascript:fnWordInfoView(\'sense\', \'4851\');" >괴뢰</a>’와 ‘<a href="#" class="wordPageView" onclick="javascript:fnWordInfoView(\'sense\', \'331656\');" >꼭두각시</a>’를 함께 쓸 수 있다고 되어 있다.')

'뜻풀이'의 경우에는 <word_no>라는 태그가 남아 있는데 한 개 단어가 아니라 다음 단어 목록을 레퍼런스하는데 쓰이고 있다.

('뜻풀이', '‘<word_no>459507</word_no>연금’의 북한어.')

https://opendict.korean.go.kr/popup/dicSimpleView?word_no=0&word_list=406772&sense_no=0&type=word_list

우리말샘 사이트에도 레퍼런스가 있는 경우도 있고 그냥 텍스트만 있는 경우도 있다.

한국어기초사전 (https://krdict.korean.go.kr/) 사이트에서 다운로드한 XML은 레퍼런스 정보가 제대로 ID 형태로 기록되어 있다!

				<SenseRelation>
					<feat att="type" val="반대말" />
					<feat att="id" val="71534" />
					<feat att="lemma" val="음성" />
					<feat att="homonymNumber" val="2" />
				</SenseRelation>

우리말샘: 한양 PUA, 웹폰트 외의 PUA 코드

맞춤법 검사에 필요한 데이터와는 무관한 사항

한양 PUA나 우리말샘 자체 웹폰트(#2 )에서도 커버하지 못하는 PUA 코드. 알려진 윈도우 기본 폰트에는 없는 글리프. 이 항목을 작성했던 사람의 컴퓨터에 설치되어 있던 특정 폰트의 글리프일 가능성 높음.

U+F0854 U+F0855

https://opendict.korean.go.kr/dictionary/view?sense_no=498182&viewType=confirm

... 󰡔가례언해󰡕에만 ...

U+E069

https://opendict.korean.go.kr/dictionary/view?sense_no=387897&viewType=confirm

aum

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.