zhanzecheng / chinese_segment_augment Goto Github PK

View Code? Open in Web Editor NEW

580.0 580.0 166.0 6.23 MB

python3实现互信息和左右熵的新词发现

Python 100.00%

chinese_segment_augment's People

Contributors

Stargazers

Watchers

Forkers

xinke0802 lu839684437 tutty427 ningpengtao-coder haonanli ansvver yclinyimeng vencent-love-python 15810856129 binkmust alucardmini ryfan-rs flyounger nactran urna jiangzhonglian wangbin321 xuanshang itsmengzaime smilejx w6688j zorfree fendaq gongqingyi-github wurentidai allensmile topdreamer caomaocao hiber-niu zhusleep lvdepin baifengbai carrychang dszzm casillas-qf binzhouchn semsevens williamfu1989 yuanjie-ai autogyro 0xb7ee we1l1n zhanglv0209 luanboheng liuwq168 greengrass2015 icecream0 mingxuanliu lihuan931104 xuanmi chengli0327 andglf haowg hpatiencer wangxingjun778 chenny0808 artist100 iszhuangsha fzy0728 hhy5277 moreinterest fenlan dzhgb leedong123 vincentwong1 q111ysk moonpath 1pxsqgx slashqiang little-girl-1992 leekltw jxdms hungita wangdxf yuexianchao liujian19911023 qhduan liyumeng2018 renhongjia shaonianjim cold-eye useric cqupthub brightgems freemanguohua helen0804 godamn gdonglin shu19900209 1601120453 kyroad bobz653 ttklm20 roygyr qiaojj codefavor2018 wyf-1996 haojiepan1 yuconan drdavids

chinese_segment_augment's Issues

直接线性加和是最好的方法吗？

个人也写过一个类似的东东，尝试过几种左右熵和互信息的结合方式都不是很满意，请问还有更好的方法吗，尝试过加权和比值的多种参数。

程序下载后无法正常运行

主要问题有两个：

在加载文件时，文件路径错误。
demo_run.py 43/48行缺少"/"
修改后文件model.py 84行：
word[0], word[1], word[2] = word[1], word[2], word[0]
TypeError: 'tuple' object does not support item assignment

计算左右熵算法问题

假设有两个词串分别是[a,b,c]和[b,c,a]，[a,b,c]在计算左熵的时候会转换成b->c->a存储到树中,[b,c,a]在顺序存储的时候也会转换成b->c->a存储到树中，那么这个时候计算bc的左熵的时候会有问题把，额外把a的次数多加了一。

model.py的参数疑问

PMI = math.log(max(ch.count, 1), 2) - math.log(total, 2) - math.log(one_dict[child.char], 2) - math.log(one_dict[ch.char], 2)
为什么和log2( P(X,Y) / (P(X) * P(Y))感觉不一样？

UnicodeDecodeError: 'ascii' codec can't decode byte

运行报了这个错
#python3 demo_run.py
Traceback (most recent call last):
File "demo_run.py", line 44, in
stopwords = get_stopwords()
File "/data/home/tengenli/Chinese_segment_augment/utils.py", line 13, in get_stopwords
stopword = [line.strip() for line in f]
File "/data/home/tengenli/Chinese_segment_augment/utils.py", line 13, in
stopword = [line.strip() for line in f]
File "/usr/local/lib/python3.6/encodings/ascii.py", line 26, in decode
return codecs.ascii_decode(input, self.errors)[0]
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 2: ordinal not in range(128)

这一步的意义是什么，为什么这样计算

==>result[key] = (values[0] + min(left[d], right[d])) * values[1]
这一步理解不了是在干什么，我的理解是只要取左右熵中的最小值作为这一步需要赋值的值就可以了

def find_word(self, N):
    # 通过搜索得到互信息
    # 例如: dict{ "a_b": (PMI, 出现概率), .. }
    bi = self.search_bi()
    # 通过搜索得到左右熵
    left = self.search_left()
    right = self.search_right()
    result = {}
    for key, values in bi.items():
        d = "".join(key.split('_'))
        # 计算公式 score = PMI + min(左熵， 右熵) => 熵越小，说明越有序，这词再一次可能性更大！
        #   PMI 是为了计算共现值。   values[0] 也是共现值
        result[key] = (values[0] + min(left[d], right[d])) * values[1]

为什么需要一个外部词频表？

互信息和左右熵通过语料不是就可以计算了吗？为什么需要一个外部词表呢？

ValueError: math domain error

PMI计算出现不符合数学规则的计算

demo_run中如果将top值从5个改成10个，运行之后只能得到8个新词？

请问这是为什么......

pyjieba真的有点慢，可以换成c++的

你这个代码效率是真的有点低

‘加载外部词频记录 dict.txt ’ 的作用是啥啊？

add node的时候，是否考虑在trieNode里面加个字典

如果是长文档的话，前面add这一步很慢。我用C#试了一下添加一个子node的字典，提升比较明显，可能内存多耗一点，供参考。

if (node.DictChilds.ContainsKey(word))
                {
                    node = node.DictChilds[word];
                }
                else
                {
                    var newNode = new TrieNode(word);
                    node.Childs.Add(newNode);
                    node.DictChilds.Add(word, newNode);
                    node = newNode;
                }