Git Product home page Git Product logo

Comments (6)

qinwf avatar qinwf commented on September 28, 2024

请看一下 词典文件的编码是不是 UTF-8 格式,如果不是,读取的时候可能是乱码。

可以,v0.8 增加了 new_user_word(worker, words, tags) ,可以增加词。

> cc = worker()
> cc["嘻嘻哈"]
[1] "嘻嘻" "哈"  
> new_user_word(cc, "嘻嘻哈","n")
[1] TRUE
> cc["嘻嘻哈"]
[1] "嘻嘻哈"

from jiebar.

tammy2015 avatar tammy2015 commented on September 28, 2024

谢谢,我试试

from jiebar.

tammy2015 avatar tammy2015 commented on September 28, 2024

插入新词和提取关键字可以同时使用吗?
这里提取关键词的个数可以由文本长短来决定取几个吗?

temp = c("宠物小精灵 宠物小精灵 改编自日本人气动漫宠物小精灵真实还原了主人公立志成为神奇宝贝大师和小精灵一起踏上旅途一路上主人公邂逅了不少同伴劲敌好友和他们展开了一次又一次冒险通过一次又一次的难关不断成长成为小精灵大师", "上海车辆违章查询系统更多功能即将开启,敬请关注!")
cc = worker("keywords", topn = 1)
#cc = worker("tag")
new_user_word(cc,selfdict,rep("n",length(selfdict)))
cc <= temp[1]
57.5139 29.8483 18.6587
"小精灵" "宠物" "一次"

不管是 "keywords"用tfidf还是 simHash 用hash算法 ,提取关键字都不是很准确,对于从许多段文本中,对每个短文本提取关键字有什么推荐吗

from jiebar.

qinwf avatar qinwf commented on September 28, 2024
> cc = worker("keywords",topn = 1)
> new_user_word(cc,"宠物小精灵","sd")
Error: inherits(worker, "jieba") is not TRUE
> cc = worker("mix",topn = 1)
> new_user_word(cc,"宠物小精灵","sd")
[1] TRUE

new_user_word 是针对分词 worker 的,可以先分词,然后使用 vector_keywords,输入分词后的文本。

如果有的词确定是要使用的,可以把他们加入到词典文件里,new_user_word 主要是方便临时加词。

目前我了解的好像还没有其他针对中文的关键词提取的包。如果觉得提取的结果不理想,可以看一下其他的提取方法,或者自己写一小段程序根据需求的来提取。

你现在可以把提取数目设置得大一些,然后,在得到提取结果后,自己选择前几个。我在下一个版本里增加一个选项,可以输出排序后的所有结果。

from jiebar.

tammy2015 avatar tammy2015 commented on September 28, 2024

讲词加入词典是用 edit_dict(name = "system") 这个函数吗

你有什么提取文本特征的方法建议吗,我用过tfidf、互信息等,我的是许多短文本,效果都不好

我想分词的词长尽可能长,例如“宠物小精灵” “车辆违规查询” “陈乔恩代言” 等词就不要进一步拆分了,但我又不可能自己去看一边所有文本 把这些词列举全,你有推荐相关的办法 或者词库推荐吗

我问题太多了,谢谢哈

from jiebar.

qinwf avatar qinwf commented on September 28, 2024

没什么, 可能是我的文档写得不清楚。http://qinwenfeng.com/jiebaR/

词典文件的位置可以设定的。只要是文本文件就行,系统词典三列,词 空格 词频 空格 词性。用户词典两列,词 空格 词性。

如果不设定,就是用默认路径 jiebaR::USERPATHjiebaR::DICTPATH

Windows 下换行符与 Linux 下不一样,直接用记事本打开,词典显示会是一行。推荐用 notepad, sublimetext 之类的文本编辑器打开。

from jiebar.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.