zhanlaoban / eda_nlp_for_chinese Goto Github PK

View Code? Open in Web Editor NEW

1.3K 17.0 240.0 23 KB

An implement of the paper of EDA for Chinese corpus.中文语料的EDA数据增强工具。NLP数据增强。论文阅读笔记。

Python 100.00%

eda data-augmentation chinese-data-augmentation chinese easy-data-augmentation text-classification

eda_nlp_for_chinese's People

Stargazers

Watchers

Forkers

mengzhuo1234 tianyikenan 2585575866 wushicanasl hecongqing ylfeng250 buptguo gavingx zephyrchenzf caoxu915683474 jingmouren wuyunxiangwyx huyanluanyu1949 linhr000 gdh756462786 limingdeng autwind chaoyue729 yipeng5 fighting41love yexm chenmoshushi saltfun liuwq168 colinsongf jiangchenglin521 tangelian hjfeilg jeinlee1991 calvinzhu tianzhou2011 yylgsch asia-lee gavin-chan-f sduchh zhuqunxi haojiepan1 wang-na linqining charlottesean wbzhang2594 gptcod xiaolinpeter chongp rhtrht connietong zkcpku jx1100370217 chenny0808 zirongh xw-jia dilyar93 nigaea dabingsun nonva binkes berryhn xwixcn killua-zyk mylv1222 ameg-yag liu-nlper sunnymarkliu awesome-archive lifucong 1637mishenlan xiaomogui nanqiai feiyang2008 liuzongquan crazylyh116 yuanyanan123 sthsf duanzhihua ansvver believebest35 18813055625 mars-wei jnupython greengrass2015 awoziji onlyonewater process520 jeremiah0425 jugglecomemid wudaimian wwenhui-03 coder1379 laomagic husin123 leileixiao wuruiqi183 kxlshitou zhusleep jjxiangjiaojun yolymaker arryboom liuyuuan applenob wh584221

eda_nlp_for_chinese's Issues

没有停用词库呀

No such file or directory: 'stopwords/HIT_stop_words.txt'，还要自己去下载吗

句子的原始类别标签是有效的

“实验结果就是，增强句子的隐藏空间表征紧紧环绕在这些原始句子的周围。作者的结论是，句子中有多个单词被改变了，那么句子的原始标签类别就可能无效了。” 表征紧紧的在原表征周围的话，那句子不是应该语意接近吗。那么句子的原始类别标签是有效的哇

about alpha?

I see your script is python code/augment.py --input=train.txt --output=train_augmented.txt --num_aug=16 --alpha=0.05 to share an alpha value.
But I want to set different alpha. What should I do

alpha_sr=alpha, alpha_ri=alpha, alpha_rs=alpha, alpha_rd=alpha

可以不使用标签吗

我看到数据前面有01标签，我只想得到扩充的数据，用于机器翻译，是否可以不适用标签，或者直接用0123456顺序号

使用原有数据测试时报错IndexError: list index out of range

正在使用EDA生成增强语句...
Traceback (most recent call last):
File "C:\Users\HP-OMEN\Desktop\project\code\EDA_NLP_for_Chinese-master\EDA_NLP_for_Chinese-master\code\augment.py", line 54, in
gen_eda(args.input, output, alpha=alpha, num_aug=num_aug)
File "C:\Users\HP-OMEN\Desktop\project\code\EDA_NLP_for_Chinese-master\EDA_NLP_for_Chinese-master\code\augment.py", line 44, in gen_eda
sentence = parts[1]
IndexError: list index out of range

生成的output.txt文件内容为：
0 今天天气很棒哦。
0 今天天气不错哦。
0 哟不错哦。
0 喔不错哦。
0 今天天气哈哈哈不错哦。
0 今天天气不错吧哦。
0 今天天气不错哦
0 今天天气不错哦
0 今天天气不错。哦
0 yoi 不错哦。
0 今天天气不错哦呵呵。
0 今儿个今天天气不错哦。
0 今天天气很棒哦。
0 。不错哦今天天气
0 今天天气不错哦。
0 今天天气不错。哦
0 今天天气不错哦。

关于n的问题

n_sr = max(1, int(alpha_sr * num_words))
n_ri = max(1, int(alpha_ri * num_words))
n_rs = max(1, int(alpha_rs * num_words))

请问为啥要和1比呀？这样一来替换、删除或插入n最多只能变一个？（不知道我理解错没，还望指正！

raise Exception("SYNONYMS_DL_LICENSE is not in Environment variables, check out Installation Guide on https://github.com/chatopera/Synonyms")
Exception: SYNONYMS_DL_LICENSE is not in Environment variables, check out Installation Guide on https://github.com/chatopera/Synonyms

zhanlaoban / eda_nlp_for_chinese Goto Github PK

eda_nlp_for_chinese's People

Stargazers

Watchers

Forkers

eda_nlp_for_chinese's Issues

Recommend Projects

Recommend Topics

Recommend Org