bojone / word-discovery Goto Github PK

View Code? Open in Web Editor NEW

500.0 11.0 103.0 3.03 MB

速度更快、效果更好的中文新词发现

Python 100.00%

word-discovery's Introduction

速度更快、效果更好的中文新词发现

复现了之前的《【中文分词系列】 8. 更好的新词发现算法》中的新词发现算法。

算法细节： https://kexue.fm/archives/4256
复现细节： https://kexue.fm/archives/6920

实测

在经过充分训练的情况下，用bakeoff2005的pku语料进行测试，能得到0.765的F1，优于ICLR 2019的《Unsupervised Word Discovery with Segmental Neural Language Models》的0.731

（注：这里是为了给效果提供一个直观感知，比较可能是不公平的，因为我不确定这篇论文中的训练集用了哪些语料。但我感觉在相同时间内本文算法会优于论文的算法，因为直觉论文的算法训练起来会很慢。作者也没有开源，所以有不少不确定之处，如有错谬，请读者指正。）

使用

使用前务必通过

chmod +x count_ngrams

赋予count_ngrams可执行权限，然后修改word_discovery.py适配自己的数据，最后执行

python word_discovery.py

更新

2019.12.04: 兼容python3，在python2.7和python3.5下测试通过。

交流

QQ交流群：67729435，微信群请加机器人微信号spaces_ac_cn

word-discovery's People

Contributors

Stargazers

Watchers

Forkers

shihuaxing adewin zxlzr nianfd awesome-archive zhanglv0209 jingmouren allensmile mars-wei slye0612 neemax sunny8898 benkang-chen db-li kangkanglee cnfive zhangxt jimmieliu mattzheng zhongyunuestc chenny0808 zxyscz zheng5yu9 nonva danifree ethanlovequeen wnismiddle briareox fanfannothing southton balatatree sfzhou5678 yechens squirrel1982 ywangzi fighting41love barryzm 91yuan semsevens duxiaochao fangego githubgreat886 xiaoanshi joe2hpimn zhu1090093659 phychaos qing0991 cchengz qs2d mikuh ghhong1986 brucekyle99 mysqlsc askintution masonyyp xiaolinpeter wangxin1198 arryboom wurentidai ai-winner flyingwaters markwjj ashes1106 kepmov brucewuzhang zyfedward zhusy09 fishguysword ishine jxz542189 sysujayce shayeboshi tiffen shunsunsun nothingwang since1886 qingqinggit1 carycha hjunjie0324 albertbj kiminh tankcong kquark coffeebeanustb bingzhen xdcez liwenju0 dapeng2018 johnson7788 hiahianet oceans0423 hellogithub233 iq-scm cat30year yongruiq ringwraith wu-jianqiang

word-discovery's Issues

total的计算方式，是否有问题

up主的博客中提到，可以用n为某个值的ngram总频数来计算total

事实上，根据（对于某个固定的n）ngram的计算方式： [text[i:i + n] for i in range(len(text) - n + 1)] ，就知道每种ngram的总数约等于字数是显然成立的。

而源码中，是对所有ngram的频数的总和来计算total的，是否与博客中的算法不一致，导致pmi计算不正确？
for s, n in Progress(ngrams(), 100000, desc=u'loading ngrams'):
if n >= self.min_count:
self.total += n

生成的词表是单个字的形式

您好！非常感谢您分享您的工作！我按照复现的步骤在所给文本上进行测试，输出的词典文件中是单个的字而不是词请问是为什么？
输出结果如下：
167812
不 20863
一 18345
的 16298
道 15707
了 15406
是 14528
人 13219
我 11523
你 10255
他 9957
这 9885
大 9602
来 8814
之 7887
说 7455

有个疑问，我们计算4-gram是基于我们已经计算好了2-gram以及3-gram基础之上，也就是说我们的2-gram和3-gram也是经过词频和凝固度的过滤，在过滤之后，2-gram和3-gram的总频数也就不存在约等于总次数的情况了，那么我们计算4-gram的凝固度的时候，以下式子也不成立了。
score = min([total*ngrams[s]/(ngrams[s[:i+1]]*ngrams[s[i+1:]])

程序卡住了，请问怎么解决

2022-05-08 13:21:29,202 - INFO - loading ngrams - 8200000 passed
2022-05-08 13:21:29,261 - INFO - loading ngrams - 8300000 passed
Traceback (most recent call last):
File "word_discovery.py", line 206, in
ngrams = filter_ngrams(ngrams.ngrams, ngrams.total, [0, 2, 4, 6]) # 过滤ngram
File "word_discovery.py", line 123, in filter_ngrams
if math.log(pmi) >= min_pmi[i]:
IndexError: list index out of range

小数据集能跑，但 800M 的数据就卡住，请问应该如何排查？

相同代码，相同配置，只改了读入文件。3M 数据能跑出结果，800M 就卡住了。
长期停留在此处：
2020-04-27 15:56:31,686 - INFO - build ngram trie - 3400000/3457260 passed

如果在window or macbook pro的pycharm 操行?

是否均需要在主機上安裝kenlm....然後再chmod +x count_ngrams 最後才運行pycharm上的script?

代码75-76行

您好！请问代码75-76行，对长度为m的ngram，为什么要把它的子串依次计数增加呢？count_ngrams得到的，不是已经统计好了？

卡在了得到候选词

大概20G的文本，一直卡在预分词，进度条也没有显示

字符集是什么，怎么生成字符集呢

ValueError: Failed to count ngrams by KenLM.

memory参数调大调小都不行，预料并不大，done=32512 ，一直报这个错误。

字符集怎么来的，代码报错了

vocab_file = 'wx.chars' # 字符集

关于total的理解为何是总字数？

以下代码摘自【中文分词系列】 8. 更好的新词发现算法

    for t in texts(" is ngraming..."):
        for i in range(len(t)):
            for j in range(1, n + 1):  # gram 1,2,3···n
                if i + j <= len(t):  # prevent overflow the length of t
                    # ngram is a huge dict,key is the word and value is the count
                    ngrams[t[i:i + j]] += 1

以8字的例句本刊感谢各位专家为例，进行ngram分词后结果为一个大小为26的dict

对于此问题，您给出了如下的解释：

别忘了某个句子的全体ngram是
[text[i:i + n] for i in range(len(text) - n + 1)]
所以总ngram数约等于总字数。

考虑到也许您的约等于是指数量级上的约等于, 因此下面取几个大文件对比一下

总字符数为234958742字,ngram中所有key的频次累加和为736195698
总字符数为202362720字,ngram中所有key的频次累加和为624372458
总字符数为110199596字,ngram中所有key的频次累加和为346968516

由上述局部的本刊感谢各位专家例子亦或者是大文件的例子都可以看到ngram中频次累加和均大致为数据总字数的3倍左右。但3倍在计算PMI处理的过程中会带来多大差距呢？我以1.为例，取其中最高频次的词汇企业，频次1307887，其中企频次为1953603，业频次为3030854，该语料库总字数为212741102.0,据此所计算出的pmi=69.00695726310722，

鉴于此处变量只有total，直接将上述结果×3得到基于key的频次累加的pmi大约为207

所以是觉得对于2-gram来讲207和69相对于阈值5来说都大很多，所以基本差别不大这个意思么？🤣

bojone / word-discovery Goto Github PK

word-discovery's Introduction

速度更快、效果更好的中文新词发现

实测

使用

更新

交流

word-discovery's People

Contributors

Stargazers

Watchers

Forkers

word-discovery's Issues

Recommend Projects

Recommend Topics

Recommend Org