Git Product home page Git Product logo

nictdict's Introduction

NICT日本語辞書

概要

CRFSegmenterで使われる日本語の辞書です。

以下のようにファイルが分かれています。

  • nictdict.tsv 一般辞書(普通名詞・用言・機能語などを含む)
  • nictdict_ne.tsv 固有名詞辞書
  • nictdict_declinable.tsv 用言辞書

ライセンス

LICENSE.mdをご参照ください。

形式

辞書の形式はUTF-8エンコードのタブ区切りテキストです。

辞書のフィールド数は6で、各フィールドは左から以下の順になっています。

  • 読み
  • 発音
  • 品詞
  • 活用タイプ(非用言の場合は"*")
  • 表記
  • 代表形(「表記-読み」形式)

読み

単語の読みを片仮名で記述します。「学校」であれば「ガッコウ」のような、一般的なかな書き表記です。

発音

単語の発音を片仮名で記述します。具体的には、「読み」と以下のような場合に違うものになります。

  • 長音(学校:ガッコー)
  • ヂ、ヅ(鼻血:ハナジ)
  • 助詞の「は」「へ」「を」、またそれに由来するもの(それでは:ソレデワ)

品詞

IPADICの品詞体系をベースにしています。

pos_table_ipadic.tsv をご参照ください。

活用タイプ

IPADICの活用型をベースにしています。

pos_table_ipadic.tsv をご参照ください。

活用について

活用についてをご参照ください。

表記

単語の実際の表記を記述します。

代表形

その単語を代表する表記と読みのペアを記述します。

この欄をキーとして使うことにより、表記ゆれ等をまとめることができます。

例としては、以下のようなものがあります。

ウィンドウ	ウィンドー	名詞-一般	*	ウィンドウ	ウィンドウ-ウィンドウ
ウィンドゥ	ウィンドー	名詞-一般	*	ウィンドゥ	ウィンドウ-ウィンドウ
ウィンドー	ウィンドー	名詞-一般	*	ウィンドー	ウィンドウ-ウィンドウ
ウインドウ	ウインドー	名詞-一般	*	ウインドウ	ウィンドウ-ウィンドウ
ウインドー	ウインドー	名詞-一般	*	ウインドー	ウィンドウ-ウィンドウ

ヒナマツリ	ヒナマツリ	名詞-一般	*	ひな祭り	ひな祭り-ヒナマツリ
ヒナマツリ	ヒナマツリ	名詞-一般	*	雛まつり	ひな祭り-ヒナマツリ
ヒナマツリ	ヒナマツリ	名詞-一般	*	雛祭	ひな祭り-ヒナマツリ
ヒナマツリ	ヒナマツリ	名詞-一般	*	雛祭り	ひな祭り-ヒナマツリ
ヒナマツリ	ヒナマツリ	名詞-一般	*	ひなまつり	ひな祭り-ヒナマツリ

nictdict's People

Contributors

hiroshi-manabe avatar

Stargazers

Shigeki Karita avatar himkt avatar IKEGAMI Yukino avatar

Watchers

James Cloos avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.