superbigfu / paoding Goto Github PK

Automatically exported from code.google.com/p/paoding

Java 99.79% Batchfile 0.13% Shell 0.07%

paoding's People

paoding's Issues

如何获取paoding系统内置的词库中的中英文词


请问,如何我的系统基于spring web 
server程序,如何获取paoding系统内置的词库中的中英文
词?

谢谢.

Original issue reported on code.google.com by [email protected] on 9 Aug 2009 at 7:27

请问使用 paoding 后的索引文件为的大小，会变成原来的一倍呢？

没使用paoding索引文件： 1.5G
使用paoding后: 3.3G

能告诉我为什么吗？

[email protected]

Original issue reported on code.google.com by [email protected] on 4 Jun 2009 at 6:14

兄弟，如果能整理一份设计文档就好啦

看代码好累啊~
我觉得平民化的关键字搜索很重要，特别是中文分词。
我希望你能给偶们些你对庖丁的规划和期望。
我对此很感兴趣，希望能加入你的团队。谢谢~
能给个你的联系方式吗？偶的是[email protected]

Original issue reported on code.google.com by [email protected] on 31 Dec 2008 at 9:11

2.0.4 beta是基于lucene什么版本开发的？

2.0.4 
beta是基于lucene什么版本开发的？我在使用lucene1.4.3时运行出��
�。

java.lang.VerifyError: trying to subclass final class
org/apache/lucene/analysis/Token

应该是继承了final的Tocken引起的?

附加信息：
java.lang.VerifyError: trying to subclass final class
org/apache/lucene/analysis/Token
    at
java.lang.ClassLoader.defineClass(Ljava.lang.String;[BIILjava.security.Protectio
nDomain;)Ljava.lang.Class;(Unknown
Source)
    at
java.security.SecureClassLoader.defineClass(Ljava.lang.String;[BIILjava.security
.CodeSource;)Ljava.lang.Class;(SecureClassLoader.java:123)
....
    at java.lang.ClassLoader.loadClassFromNative(II)Ljava.lang.Class;(Unknown
Source)
    at jrockit.vm.RNI.getRunnableCode(I)I(Unknown Source)
    at jrockit.vm.RNI.trampoline()V(Unknown Source)
    at
net.paoding.analysis.analyzer.impl.MostWordsTokenCollector.collect(Ljava.lang.St
ring;II)V(MostWordsTokenCollector.java:???)
    at
net.paoding.analysis.analyzer.PaodingTokenizer.collect(Ljava.lang.String;II)V(Pa
odingTokenizer.java:146)
    at
net.paoding.analysis.knife.CJKKnife.dissect(Lnet.paoding.analysis.knife.Collecto
r;Lnet.paoding.analysis.knife.Beef;I)I(Optimized
Method)
    at
net.paoding.analysis.knife.SmartKnifeBox.dissect(Lnet.paoding.analysis.knife.Col
lector;Lnet.paoding.analysis.knife.Beef;I)I(Optimized
Method)
    at
net.paoding.analysis.analyzer.PaodingTokenizer.next()Lorg.apache.lucene.analysis
.Token;(PaodingTokenizer.java:182)
    at
org.apache.lucene.index.DocumentWriter.invertDocument(Lorg.apache.lucene.documen
t.Document;)V(DocumentWriter.java:143)
    at
org.apache.lucene.index.DocumentWriter.addDocument(Ljava.lang.String;Lorg.apache
.lucene.document.Document;)V(DocumentWriter.java:81)
    at
org.apache.lucene.index.IndexWriter.addDocument(Lorg.apache.lucene.document.Docu
ment;Lorg.apache.lucene.analysis.Analyzer;)V(IndexWriter.java:307)
    at
org.apache.lucene.index.IndexWriter.addDocument(Lorg.apache.lucene.document.Docu
ment;)V(IndexWriter.java:294)
    at testlucene.LuceneIndex.writeToIndex()V(LuceneIndex.java:64)
    at testlucene.LuceneIndex.main([Ljava.lang.String;)V(LuceneIndex.java:24)

Original issue reported on code.google.com by [email protected] on 27 Jun 2008 at 8:48

现在lucene出2.4.1了，有了些问题

1。 
collector.getTotalHits()返回0，用lucene的StandardAnalyzer可以正常返回
；
2。用analyzer.tokenStream无法返回分词结果，请问如何能显示分��
�结果？

Original issue reported on code.google.com by [email protected] on 23 May 2009 at 4:41

启动字典动态转载/卸载检测器内存泄漏问题

使用版本是code.google的paoding-analysis-2.0.4-beta.

我想充分使用"启动字典动态转载/卸载检测器".
但是现在的定时器方式启动字典动态转载/卸载策略会引发内�
��泄漏问题.
导致字典没有更新成功(dic/.compiled目录没有重新创建)

我将DIC_DETECTOR_INTERVAL_DEFAULT 设置为 
"30"会比"60"更容易发生下面的异常
运行参数-Xms 200m -Xmx 500m

2009-11-27 11:34:46 net.paoding.analysis.knife.FileDictionaries
loadAllWordsIfNecessary
信息: loaded success!
Exception in thread "Thread-1" java.lang.OutOfMemoryError: Java heap space
    at java.util.HashMap.addEntry(Unknown Source)
    at java.util.HashMap.put(Unknown Source)
    at
net.paoding.analysis.dictionary.HashBinaryDictionary.addSubDictionary(HashBinary
Dictionary.java:132)
    at
net.paoding.analysis.dictionary.HashBinaryDictionary.createSubDictionaries(HashB
inaryDictionary.java:106)
    at
net.paoding.analysis.dictionary.HashBinaryDictionary.<init>(HashBinaryDictionary
.java:84)
    at
net.paoding.analysis.dictionary.HashBinaryDictionary.createSubDictionary(HashBin
aryDictionary.java:141)
    at
net.paoding.analysis.dictionary.HashBinaryDictionary.addSubDictionary(HashBinary
Dictionary.java:129)
    at
net.paoding.analysis.dictionary.HashBinaryDictionary.createSubDictionaries(HashB
inaryDictionary.java:106)
    at
net.paoding.analysis.dictionary.HashBinaryDictionary.<init>(HashBinaryDictionary
.java:84)
    at
net.paoding.analysis.dictionary.HashBinaryDictionary.<init>(HashBinaryDictionary
.java:72)
    at
net.paoding.analysis.knife.FileDictionaries.getVocabularyDictionary(FileDictiona
ries.java:199)
    at net.paoding.analysis.knife.CJKKnife.setDictionaries(CJKKnife.java:48)
    at
net.paoding.analysis.knife.PaodingMaker.setDictionaries(PaodingMaker.java:521)
    at net.paoding.analysis.knife.PaodingMaker.access$2(PaodingMaker.java:515)
    at net.paoding.analysis.knife.PaodingMaker$1.run(PaodingMaker.java:391)
    at net.paoding.analysis.knife.PaodingMaker$1$1.on(PaodingMaker.java:413)
    at
net.paoding.analysis.dictionary.support.detection.Detector.forceDetecting(Detect
or.java:114)
    at
net.paoding.analysis.dictionary.support.detection.Detector.run(Detector.java:105
)
    at java.lang.Thread.run(Unknown Source)

也许是要改变"启动字典动态转载/卸载检测器"的策略,用侦听d
ic目录的变化是否能避
免这个?
另外,这个异常和paodingHolder的paoding管理有关吗?
谢谢

Original issue reported on code.google.com by [email protected] on 27 Nov 2009 at 5:52

添加一个自定义词典后分词不正确

短句："中华人民共和国"

原来分词结果有"共和国"，但是没有"国"字。

我增加了一个常用单个汉字的词典single.dic，比如说加了一个"
国"字，分词结果就
没有"共和国"，这是为什么？

Original issue reported on code.google.com by [email protected] on 21 Jan 2008 at 3:32

Attachments:

我想问下字典的问题

我下载的paoding-analysis-2.0.4-alpha2里面有好多的字典．以前的没
用过．现在我
想加一个新的词，在t-base.dic中加，或者，自已新建文加这个�
��，在搜索的时候没
有在结果中找到．
细想下．可能我对字典还是不了解．
想问下切词是根据字典里的词来切嘛？还有停词可以自已加��
�？

Original issue reported on code.google.com by [email protected] on 4 Nov 2008 at 7:56

溢出的bug

paoding> 二十亿;
1:      2000000000/

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 3字符， 分 1个词
        分词耗时 16ms
--------------------------------------------------
paoding> 二十一亿;
1:      2100000000/

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 4字符， 分 1个词
        分词耗时 16ms
--------------------------------------------------
paoding> 二十二亿;
        All are noise characters or words
--------------------------------------------------

Original issue reported on code.google.com by [email protected] on 24 Apr 2008 at 8:36

高亮时候出现程序错误

What steps will reproduce the problem?
1. 从检索结果获取到文本
2. 将文本进行加亮
3. 加亮的时候出现StringIndexOutOfBoundsException：index out of range: 
1340


What is the expected output? What do you see instead?


Please use labels and text to provide additional information.

文本的长度是1339，最后一行是"项大型活动；多次在学校运动
会获奖"，抛出1340问
题：
java.lang.StringIndexOutOfBoundsException: String index out of range: 1340
    java.lang.String.substring(String.java:1765)
    org.apache.lucene.search.highlight.Highlighter.getBestTextFragments
(Highlighter.java:274)
    org.apache.lucene.search.highlight.Highlighter.getBestFragments(Hig
hlighter.java:177)
    org.apache.lucene.search.highlight.Highlighter.getBestFragments(Hig
hlighter.java:463)
    com.sitech.se

Original issue reported on code.google.com by qieqie.wang on 13 May 2009 at 3:30

一些建议

在试图把代码转成C#的过程中（已放弃）发现的一些问题。
只是些个人意见:-)
1.词典的读写，编译，自动检测是否发生变化。
可以提供检验词典原文件是否发生变化的功能，这部分功能��
�好有使用者自己控制。
程序里不要用线程的方式定时去执行检验。
2、测试的代码不要与主程序在一起。可以分出来。
3、KnifeBox,SmartKnifeBox,Paoding三个类最好不要继承自Knife
粗略看了下KnifeBox,SmartKnifeBox，不继承的话，也不会引起编译�
��问题
paoding的话也不用继承。从寓言来说，paoding是人，还是把Knife�
��为他的属性比较好。
4、配置文件合成一个文件算了。
现在的有好几个。配置起来的话有点麻烦，可以放在一个文��
�里，有注释的话，就应
该好办的，使用者不会弄乱的。:-)
个人看法，一些地方可能没弄清楚作者的本意，还请见谅。

Original issue reported on code.google.com by [email protected] on 12 Apr 2008 at 4:34

Lucene2.3中的maxMergeDocs,maxMergeMB为什么无效？

Lucene2.3中的maxMergeDocs,maxMergeMB为什么无效？

Original issue reported on code.google.com by [email protected] on 13 Feb 2008 at 3:55

请问庖丁怎么动态扩展词典？

请问庖丁怎么动态扩展词典？

Original issue reported on code.google.com by zhangsichu on 7 Nov 2008 at 4:03

内存泄漏问题

使用 paoding ，在lucene2.3.2 以及 lucene2.4.0上面运行
做大量的文件处理，建立索引：大概有20w的文件，每个文件��
�小5K。
运行到一半的时候， 会出现内存溢出异常...

但是如果用lucene自带的分词StandardAnalyzer的话， 
就没这个异常。。。
解析下什么原因？

换其他中文分词，也有这种情况
谢谢

Original issue reported on code.google.com by [email protected] on 27 Nov 2008 at 7:01

writerMode无法使用报错

我使用的是 paoding-analysis-2[1].0.4-beta.zip

代码如下：
Paoding paoding = PaodingMaker.make();
Analyzer queryAnalyzer = PaodingAnalyzer.queryMode(paoding);

queryMode、maxMode 可以使用但是效果不好 “中华 华人 人民 
共和国”
defaultMode、writerMode 无法使用 
报错为：java.lang.VerifyError: Cannot inherit from final class

麻烦帮忙看看

Original issue reported on code.google.com by [email protected] on 7 Jul 2009 at 3:03

关于paoding和QueryParser一起使用的问题。

普通的英文搜索使用" "间隔每个单词，例如"google 
map"被QueryParser解析过后会生成
Query——"google"和"map"，例如搜索name这个field，会被切
为"name:google"和"name:map"，然后按照默认逻辑对结果进行并，交
。


使用paoding的中文搜索，我用这样的代码：
Paoding paoding = PaodingMaker.make();
QueryParser pName = new QueryParser("name", PaodingAnalyzer.queryMode
(paoding));
Query qName = pName.parse("小宝 康熙");
输入“小宝 康熙”，可以被解析为"name:小宝"和"name:康熙"。

但是直接输入"小宝康熙"，
Query qName = pName.parse("小宝康熙");
会被解析为"name:小宝 康熙"

结果完全不是我想要的。

因为这样，我自己想到一个很傻的办法，先利用paoding切成带�
��格的，然后再搜索。。。
两次，现在的代码是这样的：
...
Analyzer an = PaodingAnalyzer.queryMode(paoding);
TokenStream tokens = an.tokenStream("name", new StringReader("小宝康熙"));
StringBuilder sb = new StringBuilder();
Token t = tokens.next();
while (t != null) {
sb.append(t.termText() + " ");
t = tokens.next();
}
String q = sb.toString();
Query qName = pName.parse(q);
这样输入"小宝康熙"就好了

但是我想配合QueryParser的Analyzer应该不是必须这样用吧，应该�
��一气呵成才对，不用我这
样做两道。

我用的lucene2.2.0，
paoding是paoding-analysis-2[1].0.1(UTF-8).zip

Original issue reported on code.google.com by [email protected] on 22 Oct 2007 at 6:04

請問我能夠加入開發嗎

您好我是個台灣人，不知道您是否願意讓我加入開發
我想把詞庫增加有繁體中文的讓台港地區都方便使用

Original issue reported on code.google.com by [email protected] on 6 May 2008 at 5:59

Linux下(CentOS)的效果体驗有問題

What steps will reproduce the problem?
1.在命令行模式下执行  analyzer.sh
2. 啟動中文輸 人法時 ， 就 會帶 出一堆亂 碼
3. 如附 件圖  所 示 

What is the expected output? What do you see instead?


What version of the product are you using? On what operating system?
版 本 ：
paoding-analysis 2.0.4�alpha2
JDK：1.6

Please provide any additional information below.

Original issue reported on code.google.com by [email protected] on 11 Nov 2008 at 2:11

Attachments:

error1.jpg

Sun Solaris 上运行Paoding 2.0.4问题。

由于Paoding没有在Sun Solaris上测试过。由于Sun 
Solaris的文件结构个普通的linux机器
不一样。环境变量也有所不一样。例如在普通linux上查看系统
环境变量 可以用命
令/usr/bin/printenv
但在Sun Solaris上 printenv 不在该路径下。造成报如下错误

[net.paoding.analysis.knife.PaodingMaker]-[WARN] unable to read env from 
os?/usr/bin/printenv: not

临时修改方法：
修改如下代码net.paoding.analysis.knife.PaodingMaker.java 第594行  

//cmd = "/usr/bin/printenv";
//用于修改使用Sun  Solaris
cmd = "printenv";
 就可以了

仅供参考
有相关问题可以直接与我联系msn：[email protected]

Original issue reported on code.google.com by [email protected] on 27 Nov 2009 at 8:19

查找计量单位引起的高亮越界错误

版本: paoding-analysis-2.0.4-beta

现象：高亮报错：
      Token 北京 exceeds length of provided text sized 7649

分析：
据查，“北京”是该文档的最后一个词，Paoding给出该词的star
tOffset是
7648，endOffset是7650，显然7650超出了文档的边界。 
进一步分析，发现是在文档
的中间部分偏移开始算错的，
         ... 并非平常检讨的套话！1986年2月胡绳 ...

在"1986年"之前的Token偏移都是对的，在这之后的偏移都往后错
了一位，导致最后的
Token越界。

代码问题：
Debug之后，发现错误是因为"1986年"正好处于Tokenizer 
Buffer的末尾，在
Tokenizer处理完"1986"后，因为它是个数字，所以要继续判断它��
�面是否是计量单位
（参见NumberKnife::collectLimit()），正是这段代码导致了问题。��
�竟然查
出"1986"后面的单位是“年级”，显然这是个错误的结果，据��
�计应该是该段代码在查
找单位时越出了Buffer的边界，取了无效的字符。

将查找计量单位的代码注释后该问题消失。但无法确定在别��
�是否还有同样的问题存在。

Original issue reported on code.google.com by [email protected] on 3 Dec 2009 at 4:02

在 base.dic 有一个不在 gbk 中的编码



path svn/trunk/ paoding-analysis-1/ dic/ CJK/ base.dic

line 42197

"南蛮" = b'\xc4\xcf\xc2\xf9'

"南蛮" = b'\xc4\xcf\xc2\xf9\xf8\xc9\r\n'

b'\xf8\xc9' 是什么字呢？

Original issue reported on code.google.com by [email protected] on 6 Dec 2008 at 2:39

paoding有没有方法查看传入的关键字是不是停掉的词

如题 。

查看传入的关键是不是在停词字典中。

Original issue reported on code.google.com by [email protected] on 19 Nov 2008 at 1:04

paoding-analysis-2.0.4-beta.zip包好像不能解压缩

paoding-analysis-2.0.4-beta.zip包好像不能解压缩
我下载之后，解压缩出现错误

Original issue reported on code.google.com by [email protected] on 23 Oct 2008 at 12:25

检索问题

还好吧，我的索引有超过1.6G，一般都是低于1s出来结果。

Original issue reported on code.google.com by [email protected] on 16 Aug 2007 at 10:28

我发现当查询词末尾以"!"结尾时，用PaodingAnalyzer去分词会出错，请qieqie帮我看一下，谢谢

我发现当查询词末尾以"!"结尾时，用PaodingAnalyzer去分词会出��
�，请qieqie帮我
看一下，谢谢

Original issue reported on code.google.com by [email protected] on 12 Sep 2008 at 5:48

2.0版本为何不以jdk1.4为基础进行开发？

如题，毕竟很多用户还是基于jdk1.4进行开发的。虽然有class转
换程序，不过还是希望提供一
个1.4的版本，如果有可能的话。

Original issue reported on code.google.com by [email protected] on 16 Sep 2007 at 9:42

出现Type mismatch时是怎么一回事呢？？？

当我运行第一小例子时，出现以下问题：
Exception in thread "main" java.lang.Error: Unresolved compilation 
problem: 
    Type mismatch: cannot convert from PaodingAnalyzer to Analyzer

    at gzu.lyq.luceneAnalyzer.PaodingAnalyzer.main
(PaodingAnalyzer.java:17)

这和什么有关系呢？？？请专业人士给予指点！Thank you very 
very much!

Original issue reported on code.google.com by [email protected] on 23 Jul 2009 at 7:32

log4j:ERROR Error occured while converting date.

What steps will reproduce the problem?
1. start app in server

What is the expected output? What do you see instead?
new exception output

What version of the product are you using? On what operating system?
paoding-analysis-2.0.4-beta
common logging:1.0.4

Please provide any additional information below.
严重: log4j:ERROR Error occured while converting date.
严重: java.lang.NullPointerException
严重:     at java.lang.System.arraycopy(Native Method)
严重:     at java.lang.AbstractStringBuilder.getChars
(AbstractStringBuilder.java:328)
严重:     at java.lang.StringBuffer.getChars(StringBuffer.java:201)
严重:     at org.apache.log4j.helpers.ISO8601DateFormat.format
(ISO8601DateFormat.java:128)
严重:     at java.text.DateFormat.format(DateFormat.java:316)
严重:     at 
org.apache.log4j.helpers.PatternParser$DatePatternConverter.convert
(PatternParser.java:444)
严重:     at org.apache.log4j.helpers.PatternConverter.format
(PatternConverter.java:64)
严重:     at org.apache.log4j.PatternLayout.format(PatternLayout.java:503)
严重:     at org.apache.log4j.WriterAppender.subAppend
(WriterAppender.java:301)
严重:     at org.apache.log4j.WriterAppender.append(WriterAppender.java:159)
严重:     at org.apache.log4j.AppenderSkeleton.doAppend
(AppenderSkeleton.java:230)
严重:     at 
org.apache.log4j.helpers.AppenderAttachableImpl.appendLoopOnAppenders
(AppenderAttachableImpl.java:65)
严重:     at org.apache.log4j.Category.callAppenders(Category.java:203)
严重:     at org.apache.log4j.Category.forcedLog(Category.java:388)
严重:     at org.apache.log4j.Category.log(Category.java:853)
严重:     at org.apache.commons.logging.impl.Log4JLogger.error
(Log4JLogger.java:257)
严重:     at 
net.paoding.analysis.dictionary.support.detection.Detector.forceDetecting
(Detector.java:119)
严重:     at net.paoding.analysis.dictionary.support.detection.Detector.run
(Detector.java:105)
严重:     at java.lang.Thread.run(Thread.java:619)
信息:  553079 
[net.paoding.analysis.dictionary.support.detection.Detector :: ERROR ]
java.lang.NullPointerException
    at org.apache.commons.logging.LogFactory.getCachedFactory
(LogFactory.java:979)
    at org.apache.commons.logging.LogFactory.getFactory
(LogFactory.java:435)
    at org.apache.commons.logging.LogFactory.getLog
(LogFactory.java:685)
    at net.paoding.analysis.knife.FileDictionaries.<init>
(FileDictionaries.java:55)
    at 
net.paoding.analysis.knife.PaodingMaker.readUnCompiledDictionaries
(PaodingMaker.java:509)
    at net.paoding.analysis.knife.PaodingMaker.access$100
(PaodingMaker.java:52)
    at net.paoding.analysis.knife.PaodingMaker$1.run
(PaodingMaker.java:389)
    at net.paoding.analysis.knife.PaodingMaker$1$1.on
(PaodingMaker.java:413)
    at 
net.paoding.analysis.dictionary.support.detection.Detector.forceDetecting
(Detector.java:114)
    at net.paoding.analysis.dictionary.support.detection.Detector.run
(Detector.java:105)
    at java.lang.Thread.run(Thread.java:619)

Original issue reported on code.google.com by [email protected] on 27 Aug 2009 at 8:08

读取配置文件的一个Bug

最近一个项目，用到了paoding分词。
词典存放，我采用了放在src目录下的方法。但却在启动服务��
�的时候抛出
net.paoding.analysis.exception.PaodingAnalysisException: dic home should
not be a file, but a directory! 
而用junit测试却可以通过。在网上搜索到一个类似的问题（只
有baidu缓存页）
http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece7631043973b5e16c1743ca085482281c
d1f84642c101a39feee677f5746ce872f3a57f41509f7a0762f724277a09cbcce109decc17e32ce7
d74274fd05c46841aa99f1574952bc651bdab1ce1bde477ceee84dc9d070e9c08592f97f0fa4d701
2dd1e830341e4b1ee4e025e60ad9c30728f5c6059e83430b2&p=8b2a910086cc46fb06f7d6201e&u
ser=baidu
当中叙述是在PaodingMaker.getFile()方法中采用了老版本的
java.net.URL.getFile()。不能够识别中文或者空格，只有采用
URL.toURI().getPath()才能识别汉字与空格，请问作者能否考虑修��
�这个bug

Original issue reported on code.google.com by [email protected] on 3 Sep 2009 at 10:27

JDK 1.5 兼容问题

version:paoding-analysis-2.0.4-alpha2

发布到tomcat上抱这个错
jdk:jdk1.5.0_14
linux:Red Hat Enterprise Linux AS release 4 (Nahant)

看了src,确实是在1.5下编译不了,是否这个版本不支持1.5了?

Exception in thread "Thread-33" java.lang.NoSuchMethodError: 
java.io.File.setWritable(Z)Z
        at 
net.paoding.analysis.analyzer.impl.MostWordsModeDictionariesCompiler.compil
eVocabulary(MostWordsModeDictionariesCompiler.java:191)
        at 
net.paoding.analysis.analyzer.impl.MostWordsModeDictionariesCompiler.compil
e(MostWordsModeDictionariesCompiler.java:67)
        at net.paoding.analysis.knife.PaodingMaker$1.run
(PaodingMaker.java:377)
        at net.paoding.analysis.knife.PaodingMaker.implMake
(PaodingMaker.java:370)
        at net.paoding.analysis.knife.PaodingMaker.make
(PaodingMaker.java:111)
        at net.paoding.analysis.analyzer.PaodingAnalyzer.init
(PaodingAnalyzer.java:73)
        at net.paoding.analysis.analyzer.PaodingAnalyzer.<init>
(PaodingAnalyzer.java:59)
        at net.paoding.analysis.analyzer.PaodingAnalyzer.<init>
(PaodingAnalyzer.java:52)

Original issue reported on code.google.com by [email protected] on 28 Nov 2007 at 2:30

PaodingMaker.getFileLastModified(File file) 的 Bug

雖然有這一行做 URL 解碼
path = path.replaceAll("%20", " ").replaceAll("\\\\", "/");

但是對於其他中文路徑仍然會有錯誤, 建議改為
path = path.replaceAll("\\\\", "/");
path = URLDecoder.decode(path,"UTF-8");

若您滿意就麻煩您了

Original issue reported on code.google.com by [email protected] on 6 May 2008 at 7:07

关于“和服”问题

我看你拆牛的时候是用的正向分词法，有没有试验过逆向分��
�法呢？？？那样错误概率会低很多
的

Original issue reported on code.google.com by [email protected] on 15 Jul 2008 at 2:40

软件包不能放到特定目录下，如路径包含空格

What steps will reproduce the problem?
1. 创建一个目录，目录的完整路径包含空格或者中文
2. 运行analyzer.bat
3. java虚拟机报告，找不到paoding-analysis.jar

What is the expected output? What do you see instead?
应该正常启动，而不是找不到文件。

What version of the product are you using? On what operating system?
2.04alpha2

Please provide any additional information below.


D:\Data\Research\SearchEngine>mv WordSegment "Word Segment"

D:\Data\Research\SearchEngine>cd "Word Segment"

D:\Data\Research\SearchEngine\Word Segment>cd paoding-analysis-2.0.4-alpha2

D:\Data\Research\SearchEngine\Word Segment\paoding-analysis-2.0.4-
alpha2>analyze
r.bat
error in handler path=file:/D:/Data/Research/SearchEngine/Word 
Segment/paoding-a
nalysis-2.0.4-alpha2/paoding-analysis.jar!/paoding-analysis.properties
error in handler jarPath=/D:/Data/Research/SearchEngine/Word 
Segment/paoding-ana
lysis-2.0.4-alpha2/paoding-analysis.jar!/
net.paoding.analysis.exception.PaodingAnalysisException: 
java.io.FileNotFoundExc
eption: D:\Data\Research\SearchEngine\Word Segment\paoding-analysis-2.0.4-
alpha2
\paoding-analysis.jar! (系统找不到指定的文件。)
        at net.paoding.analysis.knife.PaodingMaker.getProperties
(PaodingMaker.ja
va:138)
        at net.paoding.analysis.analyzer.PaodingAnalyzer.init
(PaodingAnalyzer.ja
va:70)
        at net.paoding.analysis.analyzer.PaodingAnalyzer.<init>
(PaodingAnalyzer.
java:59)
        at 
net.paoding.analysis.analyzer.estimate.TryPaodingAnalyzer.analysing(T
ryPaodingAnalyzer.java:99)
        at net.paoding.analysis.analyzer.estimate.TryPaodingAnalyzer.main
(TryPao
dingAnalyzer.java:73)
Caused by: java.io.FileNotFoundException: 
D:\Data\Research\SearchEngine\Word Seg
ment\paoding-analysis-2.0.4-alpha2\paoding-analysis.jar! 
(系统找不到指定的文
件。
)
        at java.util.zip.ZipFile.open(Native Method)
        at java.util.zip.ZipFile.<init>(Unknown Source)
        at java.util.jar.JarFile.<init>(Unknown Source)
        at java.util.jar.JarFile.<init>(Unknown Source)
        at net.paoding.analysis.knife.PaodingMaker.getFileLastModified
(PaodingMa
ker.java:242)
        at net.paoding.analysis.knife.PaodingMaker.loadProperties
(PaodingMaker.j
ava:207)
        at net.paoding.analysis.knife.PaodingMaker.getProperties
(PaodingMaker.ja
va:129)
        ... 4 more

Original issue reported on code.google.com by [email protected] on 20 May 2008 at 6:04

PaodingMaker类getFileLastModified方法第242行报错！

将paoding-analysis.jar引入项目，初始化Analyzer analyzer = new 
PaodingAnalyzer();时报错。

错误信息输出如下：

error in handler path=file:/F:/workspace/eclipse3.2 workspace/web-search/
lib/lucene-2.2.0/paoding-analysis.jar!/paoding-analysis.properties

error in handler jarPath=/F:/workspace/eclipse3.2 workspace/web-search/lib/
lucene-2.2.0/paoding-analysis.jar!/

Exception in thread "main" 
net.paoding.analysis.exception.PaodingAnalysisException: 
java.io.FileNotFoundException: F:\workspace\eclipse3.2 workspace\web-
search\lib\lucene-2.2.0\paoding-analysis.jar! 
(系统找不到指定的文件。)
    at 
net.paoding.analysis.knife.PaodingMaker.getProperties(PaodingMaker.java:138)
    at 
net.paoding.analysis.analyzer.PaodingAnalyzer.init(PaodingAnalyzer.java:70)
    at 
net.paoding.analysis.analyzer.PaodingAnalyzer.<init>(PaodingAnalyzer.java:59)
    at 
net.paoding.analysis.analyzer.PaodingAnalyzer.<init>(PaodingAnalyzer.java:52)
    at 
com.cdqss.core.searchengine.index.TxtFileIndexer.createIndex(TxtFileIndexer.java
:36)
    at 
com.cdqss.core.searchengine.index.TxtFileIndexer.main(TxtFileIndexer.java:62)
Caused by: java.io.FileNotFoundException: F:\workspace\eclipse3.2 
workspace\web-search\lib\lucene-2.2.0\paoding-analysis.jar! 
(系统找不到指定
的文件。)
    at java.util.zip.ZipFile.open(Native Method)
    at java.util.zip.ZipFile.<init>(Unknown Source)
    at java.util.jar.JarFile.<init>(Unknown Source)
    at java.util.jar.JarFile.<init>(Unknown Source)
    at 
net.paoding.analysis.knife.PaodingMaker.getFileLastModified(PaodingMaker.java:24
2)
    at 
net.paoding.analysis.knife.PaodingMaker.loadProperties(PaodingMaker.java:207)
    at 
net.paoding.analysis.knife.PaodingMaker.getProperties(PaodingMaker.java:129)
    ... 5 more



版本:paoding-analysis-2.0.4-alpha2
环境：WINXP+JDK6.0


经调试追踪到在PaodingMaker类getFileLastModified方法第242行处报错�
��此处代码
为：jarFile = new JarFile(jarPathFile);

Original issue reported on code.google.com by [email protected] on 11 Dec 2007 at 6:41

中文数字解析问题

问题：
解析 “一九一五年”的结果是："191" "五年"
这是个错误的结果，因为当用户搜索 "1915" 或者 "一九一五" 
的时候是查不到结果的。

分析：
Paoding先在词典里查找有没有合适的词，这时候会找到“五年�
��，然后将"一九一"作为
孤立短语解析成"191"，这种做法对非数字中文是合理的，但是
对数字中文就有问题。

解决：
修改CJKKnife::dissect()方法，将所有数字中文都作为孤立短语解�
��。这样“一九一
五年”的解析结果就是 "1915" "年"

Original issue reported on code.google.com by [email protected] on 4 Dec 2009 at 4:24

动态加载词库

希望庖丁能动态加载词库.
词库可以根据某些条件来自我管理,新增或删除词条,这就涉及
到动态载入词库,或者说动态地改变
内存中已加载的词库的数据结构,新增,删除节点?还是其他办��
�,有待思考.  #KenWu

Original issue reported on code.google.com by [email protected] on 9 Aug 2007 at 4:42

"湖北石首"分词问题请教

您好，我在使用庖丁进行中文分词中，遇到一个问题。

以下四个短语，分词的效果不是很理想。请问有什么好办法��
�？
“湖北省石首市”
“湖北石首”    
“蒋介石首次发表了”
“钻石首饰”

非常感谢您的帮助。
我同时在您的Project Home中留言了。谢谢。

Original issue reported on code.google.com by [email protected] on 15 Sep 2009 at 2:39

分词结果提示分 52537803个词, 控制台只显示了500个

What steps will reproduce the problem?
1. 我对一个280m的文本文件进行分词, 输出显示
分词器net.paoding.analysis.analyzer.PaodingAnalyzer
内容长度 175154215字符， 分 52537803个词
分词耗时 109219ms

但是控制台只输出了500个, 我想问剩下的这些词怎么导出


What is the expected output? What do you see instead?
没有异常

What version of the product are you using? On what operating system?
paoding-analysis-2.0.4-beta   windows xp

Please provide any additional information below.

Original issue reported on code.google.com by [email protected] on 12 Aug 2009 at 3:07

可以介紹一下目前Paoding的開發環境嗎?

比如使用什麼工具，或版本
3Q

Original issue reported on code.google.com by [email protected] on 12 Nov 2008 at 5:54

想问下用paoding分词后搜索数字效果不太好，怎么解决

我用paoding分词后，在搜索数字加字母还能搜索到。但搜索数�
��时就搜索不到了。例：“仿古
银121FB” 
如果搜索121fb是可以搜到的。但只搜索121就找不到。还有如“
风中ZIPPO商标
24461”直接搜24461就找不到这条记录。

Original issue reported on code.google.com by [email protected] on 28 Feb 2009 at 3:12

Lucene 3.0 兼容问题

lucene 3.0 
去掉了一些废弃的方法，如tokenStream.next()方法。为了让Paoding�
��
够在lucene 
3.0环境运行，我改动了附件中的三个文件，主要是为了兼容��
�的
tokenStream.incrementToken()接口。

Original issue reported on code.google.com by [email protected] on 3 Dec 2009 at 4:16

Attachments:

能否加入对词库进行编辑的功能接口？

对于基于词库的分词方案，如果能加入对词库的编辑功能，��
�十分必要的，但我粗略的翻了下代
码确没有发现，开发者是否可以考虑加入这部分功能？

Original issue reported on code.google.com by liqwei on 27 Mar 2009 at 6:20

用poading 对“万科管理合同”进行分词_高亮问题(问题二)


前提：
    词库中有 万科/管理/理合/合同 
    分词结果  万科/管理/理合/合同 
用lucene 带 Field.TermVector.WITH_POSITIONS_OFFSETS 建立索引
在高亮时出错，提示如下
   Exception in thread "main" java.lang.NullPointerException
    at org.apache.lucene.search.highlight.TokenSources.getTokenStream
(TokenSources.java:130)
    at org.apache.lucene.search.highlight.TokenSources.getTokenStream
(TokenSources.java:81)
    我查了下高亮的代码，是由管理/理合 这样交叉分启引起的，想请qieqie确定一下问题所在

Original issue reported on code.google.com by [email protected] on 8 Jun 2009 at 10:09

[deleted issue]

[deleted issue]

paoding 能进行拼写检查么？

请问那种中文的拼写检查或者建议搜索paoding能实现么？
比如：  我输入“周杰轮”

提示：您是否搜索的是“周杰伦”“周杰”等等。。。

Original issue reported on code.google.com by [email protected] on 13 Oct 2009 at 8:55

Nutch加载Paoding后，有些词查询结果无法显示，空白页。请帮忙啊

Hi, QieQie 

我在Nutch中通过参考
http://hi.baidu.com/zhumulangma/blog/item/a27284b161d4b35c0823021a.html已经
将Paoding加载上去了。通过Luke都能查看到是按中文索引了。可
是在查询“进行的磨损对比行
驶试验”的时候，查不出来，去掉“进行的”就能查询出来��
�像这样的词有很多都查不出来，直
接空白页，也不报错。不知道应该怎么配置或修改。谢谢你��
�，这个折腾有好久。

Original issue reported on code.google.com by [email protected] on 2 Dec 2009 at 1:00

分次的问题

有一段文章，中间含“第七十四军”的文字，客户端尝试搜��
�“七十四军”，没有结果，
再尝试用paoding带的分次工具分，结果如下：
paoding> 第七十四军;
1:      第七/第七十/4/军/
        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 5字符， 分 4个词
        分词耗时 31ms
--------------------------------------------------
paoding> 七十四军;
1:      74/军/
        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 4字符， 分 2个词
        分词耗时 0ms
--------------------------------------------------
paoding>

建索引的时候送进去的文字是“第七十四军”， 
这样搜索时搜索“七十四军”就没有结果了。
不知道有没有什么好的办法？

Original issue reported on code.google.com by [email protected] on 10 Apr 2008 at 6:33

用poading 对“万科金御华府”进行分词(问题一)

环境
   词库中有 “万科金御华府”，“万科”“华府”
   分词结果
           万科
           华府
           万科金御华府
 在分词结果中 金御/金/御  
 想问一下qieqie，这是什么原因造成的，我看了一下代码，好像“万科金御华府”没有经过二 
元分词，而"金御"在词库中没有，所以就没有分出金御/金/御

 /表或之意

Original issue reported on code.google.com by [email protected] on 8 Jun 2009 at 9:56

重新部署时不停地增加Detector，陷入死循环

下面这段代码，在webapp中redeploy时，会发生死循环，不停地调
用run方法。

final DictionariesCompiler compiler 
                = (DictionariesCompiler)compilerClass.newInstance();
            new Function() {
                public void run() throws Exception {
                    // 编译词典-对词典进行可能的处理，以符合分词器的要求
                    if (compiler.shouldCompile(p)) {
                        Dictionaries dictionaries = readUnCompiledDictionaries(p);
                        Paoding tempPaoding = createPaodingWithKnives(p);
                        setDictionaries(tempPaoding, dictionaries);
                        compiler.compile(dictionaries, tempPaoding, p);
                    }

                    // 使用编译后的词典
                    final Dictionaries dictionaries = compiler.readCompliedDictionaries(p);
                    setDictionaries(finalPaoding, dictionaries);

                    // 启动字典动态转载/卸载检测器
                    // 侦测时间间隔(秒)。默认为60秒。如果设置为０或负数则表示不需要进行检测
                    String interval = getProperty(p, Constants.DIC_DETECTOR_INTERVAL);
                    dictionaries.startDetecting(Integer.parseInt(interval), new
DifferenceListener() {
                        public void on(Difference diff) throws Exception {
                            dictionaries.stopDetecting();
                            // 此处调用run方法，以当检测到**编译后**的词典变更/删除/增加时，
                            // 重新编译源词典、重新创建并启动dictionaries自检测
                            run();
                        }
                    });
                }
            }.run();

Original issue reported on code.google.com by [email protected] on 22 Jul 2008 at 8:32

PaodingMaker类getFileLastModified方法第242行报错！

将paoding-analysis.jar引入项目，初始化Analyzer analyzer = new 
PaodingAnalyzer();时报错。

错误信息输出如下：

error in handler path=file:/F:/workspace/eclipse3.2 workspace/web-search/
lib/lucene-2.2.0/paoding-analysis.jar!/paoding-analysis.properties
error in handler jarPath=/F:/workspace/eclipse3.2 workspace/web-search/lib/
lucene-2.2.0/paoding-analysis.jar!/
Exception in thread "main" 
net.paoding.analysis.exception.PaodingAnalysisException: 
java.io.FileNotFoundException: F:\workspace\eclipse3.2 workspace\web-
search\lib\lucene-2.2.0\paoding-analysis.jar! 
(系统找不到指定的文件。)
    at 
net.paoding.analysis.knife.PaodingMaker.getProperties(PaodingMaker.java:138)
    at 
net.paoding.analysis.analyzer.PaodingAnalyzer.init(PaodingAnalyzer.java:70)
    at 
net.paoding.analysis.analyzer.PaodingAnalyzer.<init>(PaodingAnalyzer.java:59)
    at 
net.paoding.analysis.analyzer.PaodingAnalyzer.<init>(PaodingAnalyzer.java:52)
    at 
com.cdqss.core.searchengine.index.TxtFileIndexer.createIndex(TxtFileIndexer.java
:36)
    at 
com.cdqss.core.searchengine.index.TxtFileIndexer.main(TxtFileIndexer.java:62)
Caused by: java.io.FileNotFoundException: F:\workspace\eclipse3.2 
workspace\web-search\lib\lucene-2.2.0\paoding-analysis.jar! 
(系统找不到指定
的文件。)
    at java.util.zip.ZipFile.open(Native Method)
    at java.util.zip.ZipFile.<init>(Unknown Source)
    at java.util.jar.JarFile.<init>(Unknown Source)
    at java.util.jar.JarFile.<init>(Unknown Source)
    at 
net.paoding.analysis.knife.PaodingMaker.getFileLastModified(PaodingMaker.java:24
2)
    at 
net.paoding.analysis.knife.PaodingMaker.loadProperties(PaodingMaker.java:207)
    at 
net.paoding.analysis.knife.PaodingMaker.getProperties(PaodingMaker.java:129)
    ... 5 more



版本:paoding-analysis-2.0.4-alpha2
环境：WINXP+JDK6.0


经调试追踪到在PaodingMaker类getFileLastModified方法第242行处报错�
��此处代码
为：jarFile = new JarFile(jarPathFile);

Original issue reported on code.google.com by [email protected] on 11 Dec 2007 at 6:40

superbigfu / paoding Goto Github PK

paoding's People

paoding's Issues

Recommend Projects

Recommend Topics

Recommend Org