letiantian / pinyin2hanzi Goto Github PK

View Code? Open in Web Editor NEW

578.0 20.0 148.0 18.28 MB

拼音转汉字，拼音输入法引擎， pin yin -> 拼音

Python 99.40% Shell 0.60%

pinyin2hanzi's Introduction

Pinyin2Hanzi

拼音转汉字，可以作为拼音输入法的转换引擎，兼容Python 2、Python 3。

安装

Python 2：

$ python setup.py install --user

Python 3：

$ python3 setup.py install --user

使用

下面的示例在Python 3中运行。

基于HMM的转换

原理是viterbi算法。

from Pinyin2Hanzi import DefaultHmmParams
from Pinyin2Hanzi import viterbi

hmmparams = DefaultHmmParams()

## 2个候选
result = viterbi(hmm_params=hmmparams, observations=('ni', 'zhi', 'bu', 'zhi', 'dao'), path_num = 2)
for item in result:
    print(item.score, item.path)
'''输出
1.3155294593897203e-08 ['你', '知', '不', '知', '道']
3.6677865125992192e-09 ['你', '只', '不', '知', '道']
'''

## 2个候选，使用对数打分
result = viterbi(hmm_params=hmmparams, observations=('ni', 'zhi', 'bu', 'zhi', 'dao'), path_num = 2, log = True)
for item in result:
    print(item.score, item.path)
'''输出
-18.14644152864202 ['你', '知', '不', '知', '道']
-19.423677486918002 ['你', '只', '不', '知', '道']
'''

## 2个候选，使用对数打分
result = viterbi(hmm_params=hmmparams, observations=('ni', 'zhii', 'bu', 'zhi', 'dao'), path_num = 2, log = True)
for item in result:
    print(item.score, item.path)
# 发生KeyError，`zhii`不规范

基于DAG的转换

原理是词库+动态规划。

from Pinyin2Hanzi import DefaultDagParams
from Pinyin2Hanzi import dag

dagparams = DefaultDagParams()

## 2个候选
result = dag(dagparams, ('ni', 'bu', 'zhi', 'dao', 'de', 'shi'), path_num=2)
for item in result:
    print(item.score, item.path)
''' 输出
0.08117536840088911 ['你不知道', '的是']
0.04149191639287887 ['你不知道', '的诗']
'''

## 2个候选，使用对数打分
result = dag(dagparams, ('ni', 'bu', 'zhi', 'dao', 'de', 'shi'), path_num=2, log=True)
for item in result:
    print(item.score, item.path)
''' 输出
-2.5111434226494866 ['你不知道', '的是']
-3.1822566564324477 ['你不知道', '的诗']
'''

## 1个候选
print( dag(dagparams, ['ti', 'chu', 'le', 'bu', 'cuo', 'de', 'jie', 'jve', 'fang', 'an'], path_num=1) )
'''输出
[< score=0.0017174549839096384, path=['提出了', '不错', '的', '解决方案'] >]
'''

## 2个候选，使用对数打分
result = dag(dagparams, ('ni', 'bu', 'zhi', 'dao', 'de', 'shii'), path_num=2, log=True)
print(result)
# 输出空列表，因为`shii`不存在

自定义params

实现AbstractHmmParams, AbstractDagParams这两个接口即可。具体可以参考源码。

关于拼音

给出的拼音必须是“规范”的。例如

略 -> lve
据 -> ju

列举所有“规范”的拼音：

from Pinyin2Hanzi import all_pinyin
for py in all_pinyin():
        print(py)

将拼音转换为“规范”的拼音：

from Pinyin2Hanzi import simplify_pinyin

print(simplify_pinyin('lue'))
# 输出：'lve'

print(simplify_pinyin('lüè'))
# 输出：'lve'

判断是否是“规范”的拼音：

from Pinyin2Hanzi import is_pinyin

print(is_pinyin('lue'))
# 输出：False

print(is_pinyin('lüè'))
# 输出：False

print(is_pinyin('lvee'))
# 输出：False

print(is_pinyin('lve'))
# 输出：True

训练

原始数据和训练代码在train目录下。数据来自jpinyin、pinyin、搜狗语料库-互联网词库等。处理数据时用到了汉字转拼音工具ChineseTone。

原理

如何实现拼音与汉字的互相转换

License

MIT

pinyin2hanzi's People

Contributors

Stargazers

Watchers

Forkers

xiamx shejianmin rock999 peipei1109 voidhug joel-duqiong zlzw shelfee digoal joe2hpimn yvetteyue syzxlyx wangpeng138375 chy233 javelir fzh890523 2012060010010 scottlinzy alphadl wakaca liuguangyuan mustang2247 lrogzin dylanpoe sigmaquan geekidentity shuiyuelin innerface moby5 can2apple lapulasitu iownu qianqq iaep moolighty heipiao limingdeng topdreamer bernytt rongchen89 albertstudy gdh756462786 1280169225 bikefly tyxr sxlxnyw weicongyu gaoyiyeah feitianyiren zw76859420 whaozl aurora11111 gangtimes dream1202 maozhiqiang yingtinghuang xyzyx233 sjyttkl xiongshufeng ddxk 896845927 tanyufei zghzdxs thisischrisyoung bi4o godsdarling fanweihua lesliedang jaycicle weimiaofan shanshuizero jonntd danielroc debuluoyi myango21 zzpuser haoyunhong wilson1823 mengmengjiang1999 comtigo hongshengxin jerryname2022 fagan2888 xykdsg yz-liu suyujun91 lifengtao0508 shencangblue chaijt zhang7346 yacaikk wyp19930313 amber-coder richiesui superrichiesui flyfie shenzaimin songtaoshi fword riseinrose

pinyin2hanzi's Issues

Isn't the EM algorithm used to get the parameters?

During training process, It seems that EM algorithm is not involved in the code. The author only obtains parameters by counting sentence frequency.

请问HMM和DAG出的分数有什么不同？

由拼音生成字的过程中，使用了HMM模型，并对生成的字进行了打分。
然后又使用了DAG对字重新打分。请问这两个分数有什么不同呢？不是很理解这个重新打分的意义？训练的语言模型体现在哪一部分了呢？
谢谢！

宝藏github作者

goodjob~

BUG?

dag/train.sh最后直接cp不行的吧，还是要跑gen_final的吧

请问怎么把连续的拼音分开呢

我看这里面的例子是每个汉字的拼音都分开的，比如['ni', 'hao'].

如果输入是'nihao'的话，怎么知道这个长拼音是可以分成ni和hao的呢?

支持制定音调转汉字吗

解释原理的文章被删除了诶

更改拼音的标签进行分类

感谢朋友您分享你的研究成果；
针对您提出的拼音合理问题，我想提出一个问题，比如说“学”在中文里面的拼音是“xue2”（其中2代表的是声调），如果按照您做的应该是“xve”，这样的标签无法明确显示标签的声调，能否做一个以字母为声调的拼音建模方式，实现拼音到汉字的转换！
我的QQ：76859420
欢迎朋友加我QQ，一起讨论一些具体问题！

yue is KeyError

@letiantian yue is KeyError?

用户词典的添加

你好，我在你的项目中的train下看到了百年孤独.txt 简爱.txt等文件。麻烦想问一下，该项目是否支持添加用户自定义词典？添加之后是要重新train吗

‘你’在py2hz.json中即有'n'又有'ni'

在py2hz.json中，为什么'你'即出现在'n'这个k-v中，又出现在'ni'这个k-v中？‘男’这个字也出现在了'n'中。导致'n'这个音通过hmm出现了'你'和‘男’这两个字。