Git Product home page Git Product logo

jbovlaste_otmize's Introduction

jbovlaste_otmizer

jbovlaste を OTM-json 形式に変換するスクリプトやその出力結果

python create_otm_jbovlaste.py [ja/en/jbo/eo/en-simple/...] とすると、xml フォルダの jbo-XXX-xml.xml を json 形式に変換し、それを OTM-json 形式に変換したものを otm-jsonフォルダに保存します。中間体のjson形式は jsonフォルダに保存され、このフォルダ内に該当する json が存在する場合、このjsonを OTM-json 化に利用します。

翻訳言語

第1コマンドライン引数は create_otm_jbovlaste.py 内の LANG_LIST に依存しています。 言語名は、jbovlaste の Language Tag に準拠しています。

eg. ja, en ja, jbo en ja eo

その他コマンド

  • --zip : 生成したOTM-json を圧縮して zip フォルダに保存します。
  • --nodollar : PS定義のプレースホルダの$を消去します。
  • --addrelations : Notesや関連語にある{}で囲まれた単語を relations に加えます。単語数によっては処理時間がかなり変わります。enで約15秒かかります。

dependency

  • xmltodict

pip install xmltodict

ちなみにおかゆの実行環境は Python3.5 です。

TO DO

  • jbovlaste から直接 XML を読み込み、それを OTM-json化する
    • jbovlaste に python からログインしないと xml ダウソできない(人力の認証が必要となるので)
  • 関連語の relations への移行。
    • 日本語辞書では「・関連語:」でまとめられているが、他の辞書では形式が色々あるので統一的にどうこうするのは難しいかもしれない。Notes内の {[a-z']+} を片っ端から?
  • その他もろもろの最適化

日本語辞書について

日本語辞書は notes に存在する雑多な項目をすべて独立した項目に変換しています。

  • 大意 -> glossword に統合しています。
  • 読み方
  • 用例(「…/…」の形式の例文)
  • 語呂合わせ
  • 関連語

jbovlaste_otmize's People

Contributors

cogas avatar

Stargazers

skytomo avatar Masanori Ogino avatar

Watchers

 avatar

Forkers

sozysozbot niftg

jbovlaste_otmize's Issues

用例の出典元がNotesに残ってしまう

たとえば、{sirji} の Notes:

(山頭火『行乞記(二)』)

これは、Notes にあった用例の直後にあったものだが、これが残ってしまっている。

「zu'a cmana .i ri'u xamsi .i fo le pa sirji pluta fa lo litru cu klama/左は山、右は海、その一筋道を旅人は行く」

この句は「用例」にあるべき。

An error occurs when adding option `--nodollar` with latest `jbo-en-xml.xml`

こんにちは
最新のjbo-en-xml.xmlでオプション--nodollarをつけて実行したとき次のようなエラーが出てしまいます。

$ python create_otm_jbovlaste.py en --nodollar --addrelations
Loaded json/jbo-en.json
Traceback (most recent call last):
  File "create_otm_jbovlaste.py", line 156, in <module>
    dictionary = create_dictionary(lang, args)
  File "create_otm_jbovlaste.py", line 147, in create_dictionary
    return dictionary_customize(dictionary, args)
  File "create_otm_jbovlaste.py", line 103, in dictionary_customize
    word.delete_dollar()
  File "D:\skytomo\Documents\Language\Lojban\jbovlaste_otmize\vlaste_builder.py", line 164, in delete_dollar
    self.translations[0].forms[0] = sentence.replace("$", "")
AttributeError: 'NoneType' object has no attribute 'replace'

なお、このオプションをつけなかった場合、エラーは出ません。

$ python create_otm_jbovlaste.py en --addrelations
Loaded json/jbo-en.json
relationizing...
22544
22544/22544 words done, using 4 processes. (12.1 sec.)
Written to otm-json/jbo-en_otm.json.

Success!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.