Comments (6)
请看一下 词典文件的编码是不是 UTF-8 格式,如果不是,读取的时候可能是乱码。
可以,v0.8 增加了 new_user_word(worker, words, tags)
,可以增加词。
> cc = worker()
> cc["嘻嘻哈"]
[1] "嘻嘻" "哈"
> new_user_word(cc, "嘻嘻哈","n")
[1] TRUE
> cc["嘻嘻哈"]
[1] "嘻嘻哈"
from jiebar.
谢谢,我试试
from jiebar.
插入新词和提取关键字可以同时使用吗?
这里提取关键词的个数可以由文本长短来决定取几个吗?
temp = c("宠物小精灵 宠物小精灵 改编自日本人气动漫宠物小精灵真实还原了主人公立志成为神奇宝贝大师和小精灵一起踏上旅途一路上主人公邂逅了不少同伴劲敌好友和他们展开了一次又一次冒险通过一次又一次的难关不断成长成为小精灵大师", "上海车辆违章查询系统更多功能即将开启,敬请关注!")
cc = worker("keywords", topn = 1)
#cc = worker("tag")
new_user_word(cc,selfdict,rep("n",length(selfdict)))
cc <= temp[1]
57.5139 29.8483 18.6587
"小精灵" "宠物" "一次"
不管是 "keywords"用tfidf还是 simHash 用hash算法 ,提取关键字都不是很准确,对于从许多段文本中,对每个短文本提取关键字有什么推荐吗
from jiebar.
> cc = worker("keywords",topn = 1)
> new_user_word(cc,"宠物小精灵","sd")
Error: inherits(worker, "jieba") is not TRUE
> cc = worker("mix",topn = 1)
> new_user_word(cc,"宠物小精灵","sd")
[1] TRUE
new_user_word 是针对分词 worker 的,可以先分词,然后使用 vector_keywords,输入分词后的文本。
如果有的词确定是要使用的,可以把他们加入到词典文件里,new_user_word 主要是方便临时加词。
目前我了解的好像还没有其他针对中文的关键词提取的包。如果觉得提取的结果不理想,可以看一下其他的提取方法,或者自己写一小段程序根据需求的来提取。
你现在可以把提取数目设置得大一些,然后,在得到提取结果后,自己选择前几个。我在下一个版本里增加一个选项,可以输出排序后的所有结果。
from jiebar.
讲词加入词典是用 edit_dict(name = "system") 这个函数吗
你有什么提取文本特征的方法建议吗,我用过tfidf、互信息等,我的是许多短文本,效果都不好
我想分词的词长尽可能长,例如“宠物小精灵” “车辆违规查询” “陈乔恩代言” 等词就不要进一步拆分了,但我又不可能自己去看一边所有文本 把这些词列举全,你有推荐相关的办法 或者词库推荐吗
我问题太多了,谢谢哈
from jiebar.
没什么, 可能是我的文档写得不清楚。http://qinwenfeng.com/jiebaR/
词典文件的位置可以设定的。只要是文本文件就行,系统词典三列,词 空格 词频 空格 词性。用户词典两列,词 空格 词性。
如果不设定,就是用默认路径 jiebaR::USERPATH
,jiebaR::DICTPATH
。
Windows 下换行符与 Linux 下不一样,直接用记事本打开,词典显示会是一行。推荐用 notepad, sublimetext 之类的文本编辑器打开。
from jiebar.
Related Issues (20)
- 能否加入并行分词功能? HOT 1
- 可否加入情緒分析功能? HOT 2
- 自定义词典中加入词汇后,发生错误(原来可以) HOT 3
- 如果做到正确标记同字不同意的词汇 HOT 1
- wk['<D'] --- Error in file_coding(code[1]) : Cannot open file HOT 1
- 设置停止词失效! HOT 3
- 关于idf_dict的疑问 HOT 1
- 分词之前的断句有没有参考[逗号,句号]等标点符号?
- jiebaR在linux上报错 HOT 1
- 您的个人网址不稳定,忽然登不上了
- 在使用词性标注的时候发现问题 HOT 1
- 文本文件分解式词性标注失败 HOT 1
- Using jiebaR package (SimHash algorithm) HOT 3
- 请教词库详情
- 请教一下分词后报错是什么原因 HOT 1
- 可以載入多本字典嗎
- cidian包是不可以下载了吗 HOT 4
- jiebaR包中的worker()启动不了
- help! Jieba user-defined dictionary function doesn't work at all!
- run worker() function 出现R session aborted 是怎么回事?
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from jiebar.