Comments (22)
我重新跑了一遍数据处理代码,验证集是251个文档。论文上确实有问题,可能错误引用了用旧的处理方法跑的数据集信息。旧的处理方法忽略了不存在指代的文档,由于不存在指代的文档结构与其他文档略有不同,旧的方法鲁棒性不够所以跳过了这类文档。验证集中存在1个这样的文档,即bn/cnr/00/cnr_0060。测试集里没有,不影响测试结果。
不过我没有跑出252个文档的结果,不清楚处理过程中是不是有其他文档也忽略了。我之后把验证集的文档名列表发出来,可以对比一下是哪一篇漏掉了。
from e2e-joint-coref.
以下是 251 个验证集文档名:
cctv_0000.onf_0
cctv_0000.onf_1
cctv_0000.onf_2
cctv_0000.onf_3
cctv_0000.onf_4
cctv_0000.onf_5
cnn_0000.onf_0
cnn_0000.onf_1
cnn_0000.onf_2
cnn_0000.onf_3
cnn_0000.onf_4
cnn_0000.onf_5
cnn_0000.onf_6
cnn_0000.onf_7
cnn_0000.onf_8
msnbc_0000.onf_0
msnbc_0000.onf_1
msnbc_0000.onf_2
msnbc_0000.onf_3
msnbc_0000.onf_4
msnbc_0000.onf_5
msnbc_0000.onf_6
msnbc_0000.onf_7
phoenix_0000.onf_0
phoenix_0000.onf_1
phoenix_0000.onf_2
phoenix_0000.onf_3
phoenix_0010.onf_0
phoenix_0010.onf_1
phoenix_0010.onf_2
phoenix_0010.onf_3
phoenix_0010.onf_4
phoenix_0010.onf_5
phoenix_0010.onf_6
phoenix_0010.onf_7
phoenix_0010.onf_8
phoenix_0010.onf_9
phoenix_0010.onf_10
phoenix_0010.onf_11
phoenix_0010.onf_12
phoenix_0010.onf_13
cbs_0010.onf_0
cbs_0020.onf_0
cbs_0030.onf_0
cbs_0040.onf_0
cbs_0050.onf_0
cbs_0060.onf_0
cbs_0070.onf_0
cbs_0080.onf_0
cbs_0090.onf_0
cbs_0100.onf_0
cbs_0110.onf_0
cbs_0120.onf_0
cbs_0130.onf_0
cbs_0140.onf_0
cbs_0150.onf_0
cbs_0160.onf_0
cbs_0170.onf_0
cbs_0180.onf_0
cnr_0010.onf_0
cnr_0020.onf_0
cnr_0030.onf_0
cnr_0040.onf_0
cnr_0050.onf_0
cnr_0060.onf_0
cnr_0070.onf_0
cnr_0080.onf_0
cnr_0090.onf_0
cnr_0100.onf_0
cnr_0110.onf_0
cnr_0120.onf_0
cnr_0130.onf_0
cnr_0140.onf_0
cts_0010.onf_0
cts_0020.onf_0
cts_0030.onf_0
cts_0040.onf_0
cts_0050.onf_0
cts_0060.onf_0
cts_0070.onf_0
cts_0080.onf_0
cts_0090.onf_0
cts_0100.onf_0
cts_0110.onf_0
cts_0120.onf_0
cts_0130.onf_0
cts_0140.onf_0
cts_0150.onf_0
cts_0160.onf_0
cts_0170.onf_0
cts_0180.onf_0
cts_0190.onf_0
cts_0200.onf_0
cts_0210.onf_0
cts_0220.onf_0
cts_0230.onf_0
cts_0240.onf_0
cts_0250.onf_0
cts_0260.onf_0
cts_0270.onf_0
cts_0280.onf_0
cts_0290.onf_0
cts_0300.onf_0
cts_0310.onf_0
ctv_0010.onf_0
ctv_0020.onf_0
ctv_0030.onf_0
ctv_0040.onf_0
ctv_0050.onf_0
ctv_0060.onf_0
ctv_0070.onf_0
ctv_0080.onf_0
ctv_0090.onf_0
ctv_0100.onf_0
ctv_0110.onf_0
ctv_0120.onf_0
ctv_0130.onf_0
ctv_0140.onf_0
ctv_0150.onf_0
ctv_0160.onf_0
ctv_0170.onf_0
ctv_0180.onf_0
ctv_0190.onf_0
vom_0010.onf_0
vom_0020.onf_0
vom_0030.onf_0
vom_0040.onf_0
vom_0050.onf_0
vom_0060.onf_0
vom_0070.onf_0
vom_0080.onf_0
vom_0090.onf_0
vom_0100.onf_0
vom_0110.onf_0
vom_0120.onf_0
vom_0130.onf_0
vom_0140.onf_0
vom_0150.onf_0
vom_0160.onf_0
vom_0170.onf_0
vom_0180.onf_0
vom_0190.onf_0
vom_0200.onf_0
vom_0210.onf_0
vom_0220.onf_0
vom_0230.onf_0
vom_0240.onf_0
vom_0250.onf_0
vom_0260.onf_0
vom_0270.onf_0
vom_0280.onf_0
vom_0290.onf_0
vom_0300.onf_0
vom_0310.onf_0
vom_0320.onf_0
chtb_1010.onf_0
chtb_1020.onf_0
chtb_1030.onf_0
chtb_1040.onf_0
chtb_1050.onf_0
chtb_1060.onf_0
chtb_1070.onf_0
chtb_0010.onf_0
chtb_0020.onf_0
chtb_0030.onf_0
chtb_0040.onf_0
chtb_0050.onf_0
chtb_0060.onf_0
chtb_0070.onf_0
chtb_0080.onf_0
chtb_0090.onf_0
chtb_0100.onf_0
chtb_0110.onf_0
chtb_0120.onf_0
chtb_0130.onf_0
chtb_0140.onf_0
chtb_0150.onf_0
chtb_0160.onf_0
chtb_0170.onf_0
chtb_0180.onf_0
chtb_0190.onf_0
chtb_0200.onf_0
chtb_0210.onf_0
chtb_0220.onf_0
chtb_0230.onf_0
chtb_0240.onf_0
chtb_0250.onf_0
chtb_0260.onf_0
chtb_0270.onf_0
chtb_0280.onf_0
chtb_0290.onf_0
chtb_0300.onf_0
chtb_0310.onf_0
chtb_0320.onf_0
ch_0010.onf_0
ch_0010.onf_1
ch_0010.onf_2
ch_0010.onf_3
ch_0010.onf_4
ch_0010.onf_5
ch_0010.onf_6
ch_0010.onf_7
ch_0020.onf_0
ch_0020.onf_1
ch_0020.onf_2
ch_0020.onf_3
ch_0020.onf_4
ch_0020.onf_5
ch_0020.onf_6
ch_0020.onf_7
ch_0020.onf_8
ch_0020.onf_9
ch_0020.onf_10
ch_0020.onf_11
ch_0020.onf_12
ch_0020.onf_13
ch_0020.onf_14
ch_0020.onf_15
ch_0030.onf_0
ch_0030.onf_1
ch_0030.onf_2
ch_0030.onf_3
ch_0030.onf_4
ch_0040.onf_0
ch_0040.onf_1
ch_0040.onf_2
ch_0040.onf_3
ch_0040.onf_4
ch_0040.onf_5
ch_0040.onf_6
cmn_0010.onf_0
cmn_0030.onf_0
cmn_0040.onf_0
cmn_0050.onf_0
dev_09_cmn_0000.onf_0
dev_09_cmn_0000.onf_1
dev_09_cmn_0030.onf_0
dev_09_cmn_0040.onf_0
dev_09_cmn_0040.onf_1
dev_09_cmn_0040.onf_2
dev_09_cmn_0050.onf_0
dev_09_cmn_0050.onf_1
dev_09_cmn_0060.onf_0
e2c_0010.onf_0
e2c_0010.onf_1
e2c_0010.onf_2
e2c_0010.onf_3
e2c_0010.onf_4
e2c_0010.onf_5
e2c_0010.onf_6
e2c_0010.onf_7
from e2e-joint-coref.
e2c_0010
我有17个ch_0020文档,你可以手动看看原始文件。
from e2e-joint-coref.
以下是 251 个验证集文档名:
cctv_0000.onf_0 cctv_0000.onf_1 cctv_0000.onf_2 cctv_0000.onf_3 cctv_0000.onf_4 cctv_0000.onf_5 cnn_0000.onf_0 cnn_0000.onf_1 cnn_0000.onf_2 cnn_0000.onf_3 cnn_0000.onf_4 cnn_0000.onf_5 cnn_0000.onf_6 cnn_0000.onf_7 cnn_0000.onf_8 msnbc_0000.onf_0 msnbc_0000.onf_1 msnbc_0000.onf_2 msnbc_0000.onf_3 msnbc_0000.onf_4 msnbc_0000.onf_5 msnbc_0000.onf_6 msnbc_0000.onf_7 phoenix_0000.onf_0 phoenix_0000.onf_1 phoenix_0000.onf_2 phoenix_0000.onf_3 phoenix_0010.onf_0 phoenix_0010.onf_1 phoenix_0010.onf_2 phoenix_0010.onf_3 phoenix_0010.onf_4 phoenix_0010.onf_5 phoenix_0010.onf_6 phoenix_0010.onf_7 phoenix_0010.onf_8 phoenix_0010.onf_9 phoenix_0010.onf_10 phoenix_0010.onf_11 phoenix_0010.onf_12 phoenix_0010.onf_13 cbs_0010.onf_0 cbs_0020.onf_0 cbs_0030.onf_0 cbs_0040.onf_0 cbs_0050.onf_0 cbs_0060.onf_0 cbs_0070.onf_0 cbs_0080.onf_0 cbs_0090.onf_0 cbs_0100.onf_0 cbs_0110.onf_0 cbs_0120.onf_0 cbs_0130.onf_0 cbs_0140.onf_0 cbs_0150.onf_0 cbs_0160.onf_0 cbs_0170.onf_0 cbs_0180.onf_0 cnr_0010.onf_0 cnr_0020.onf_0 cnr_0030.onf_0 cnr_0040.onf_0 cnr_0050.onf_0 cnr_0060.onf_0 cnr_0070.onf_0 cnr_0080.onf_0 cnr_0090.onf_0 cnr_0100.onf_0 cnr_0110.onf_0 cnr_0120.onf_0 cnr_0130.onf_0 cnr_0140.onf_0 cts_0010.onf_0 cts_0020.onf_0 cts_0030.onf_0 cts_0040.onf_0 cts_0050.onf_0 cts_0060.onf_0 cts_0070.onf_0 cts_0080.onf_0 cts_0090.onf_0 cts_0100.onf_0 cts_0110.onf_0 cts_0120.onf_0 cts_0130.onf_0 cts_0140.onf_0 cts_0150.onf_0 cts_0160.onf_0 cts_0170.onf_0 cts_0180.onf_0 cts_0190.onf_0 cts_0200.onf_0 cts_0210.onf_0 cts_0220.onf_0 cts_0230.onf_0 cts_0240.onf_0 cts_0250.onf_0 cts_0260.onf_0 cts_0270.onf_0 cts_0280.onf_0 cts_0290.onf_0 cts_0300.onf_0 cts_0310.onf_0 ctv_0010.onf_0 ctv_0020.onf_0 ctv_0030.onf_0 ctv_0040.onf_0 ctv_0050.onf_0 ctv_0060.onf_0 ctv_0070.onf_0 ctv_0080.onf_0 ctv_0090.onf_0 ctv_0100.onf_0 ctv_0110.onf_0 ctv_0120.onf_0 ctv_0130.onf_0 ctv_0140.onf_0 ctv_0150.onf_0 ctv_0160.onf_0 ctv_0170.onf_0 ctv_0180.onf_0 ctv_0190.onf_0 vom_0010.onf_0 vom_0020.onf_0 vom_0030.onf_0 vom_0040.onf_0 vom_0050.onf_0 vom_0060.onf_0 vom_0070.onf_0 vom_0080.onf_0 vom_0090.onf_0 vom_0100.onf_0 vom_0110.onf_0 vom_0120.onf_0 vom_0130.onf_0 vom_0140.onf_0 vom_0150.onf_0 vom_0160.onf_0 vom_0170.onf_0 vom_0180.onf_0 vom_0190.onf_0 vom_0200.onf_0 vom_0210.onf_0 vom_0220.onf_0 vom_0230.onf_0 vom_0240.onf_0 vom_0250.onf_0 vom_0260.onf_0 vom_0270.onf_0 vom_0280.onf_0 vom_0290.onf_0 vom_0300.onf_0 vom_0310.onf_0 vom_0320.onf_0 chtb_1010.onf_0 chtb_1020.onf_0 chtb_1030.onf_0 chtb_1040.onf_0 chtb_1050.onf_0 chtb_1060.onf_0 chtb_1070.onf_0 chtb_0010.onf_0 chtb_0020.onf_0 chtb_0030.onf_0 chtb_0040.onf_0 chtb_0050.onf_0 chtb_0060.onf_0 chtb_0070.onf_0 chtb_0080.onf_0 chtb_0090.onf_0 chtb_0100.onf_0 chtb_0110.onf_0 chtb_0120.onf_0 chtb_0130.onf_0 chtb_0140.onf_0 chtb_0150.onf_0 chtb_0160.onf_0 chtb_0170.onf_0 chtb_0180.onf_0 chtb_0190.onf_0 chtb_0200.onf_0 chtb_0210.onf_0 chtb_0220.onf_0 chtb_0230.onf_0 chtb_0240.onf_0 chtb_0250.onf_0 chtb_0260.onf_0 chtb_0270.onf_0 chtb_0280.onf_0 chtb_0290.onf_0 chtb_0300.onf_0 chtb_0310.onf_0 chtb_0320.onf_0 ch_0010.onf_0 ch_0010.onf_1 ch_0010.onf_2 ch_0010.onf_3 ch_0010.onf_4 ch_0010.onf_5 ch_0010.onf_6 ch_0010.onf_7 ch_0020.onf_0 ch_0020.onf_1 ch_0020.onf_2 ch_0020.onf_3 ch_0020.onf_4 ch_0020.onf_5 ch_0020.onf_6 ch_0020.onf_7 ch_0020.onf_8 ch_0020.onf_9 ch_0020.onf_10 ch_0020.onf_11 ch_0020.onf_12 ch_0020.onf_13 ch_0020.onf_14 ch_0020.onf_15 ch_0030.onf_0 ch_0030.onf_1 ch_0030.onf_2 ch_0030.onf_3 ch_0030.onf_4 ch_0040.onf_0 ch_0040.onf_1 ch_0040.onf_2 ch_0040.onf_3 ch_0040.onf_4 ch_0040.onf_5 ch_0040.onf_6 cmn_0010.onf_0 cmn_0030.onf_0 cmn_0040.onf_0 cmn_0050.onf_0 dev_09_cmn_0000.onf_0 dev_09_cmn_0000.onf_1 dev_09_cmn_0030.onf_0 dev_09_cmn_0040.onf_0 dev_09_cmn_0040.onf_1 dev_09_cmn_0040.onf_2 dev_09_cmn_0050.onf_0 dev_09_cmn_0050.onf_1 dev_09_cmn_0060.onf_0 e2c_0010.onf_0 e2c_0010.onf_1 e2c_0010.onf_2 e2c_0010.onf_3 e2c_0010.onf_4 e2c_0010.onf_5 e2c_0010.onf_6 e2c_0010.onf_7
并且我用的数据处理是别人的数据处理流程。。
from e2e-joint-coref.
我检查了一下,ch_0020中的第15个section(即section_14)仅存在一个句子且不包含指代。我实现的数据处理方法是直接对onf文件处理的,无法将这个section区分出来,实际上这个section已经包含在第16个section,即ch_0020.onf_14(原本的第15消失了,第16个section变成了第15个,计数从0开始,所以是onf_14)中。数据都是在里面的,不影响验证结果。
from e2e-joint-coref.
我检查了一下,ch_0020中的第15个section(即section_14)仅存在一个句子且不包含指代。我实现的数据处理方法是直接对onf文件处理的,无法将这个section区分出来,实际上这个section已经包含在第16个section,即ch_0020.onf_14(原本的第15消失了,第16个section变成了第15个,计数从0开始,所以是onf_14)中。数据都是在里面的,不影响验证结果。
好的,非常感谢,那如果我把它当作一个文档来处理应该不影响实验结果吧?
from e2e-joint-coref.
我检查了一下,ch_0020中的第15个section(即section_14)仅存在一个句子且不包含指代。我实现的数据处理方法是直接对onf文件处理的,无法将这个section区分出来,实际上这个section已经包含在第16个section,即ch_0020.onf_14(原本的第15消失了,第16个section变成了第15个,计数从0开始,所以是onf_14)中。数据都是在里面的,不影响验证结果。
好的,非常感谢,那如果我把它当作一个文档来处理应该不影响实验结果吧?
产生的影响基本可以忽略。
from e2e-joint-coref.
我检查了一下,ch_0020中的第15个section(即section_14)仅存在一个句子且不包含指代。我实现的数据处理方法是直接对onf文件处理的,无法将这个section区分出来,实际上这个section已经包含在第16个section,即ch_0020.onf_14(原本的第15消失了,第16个section变成了第15个,计数从0开始,所以是onf_14)中。数据都是在里面的,不影响验证结果。
好的,非常感谢,那如果我把它当作一个文档来处理应该不影响实验结果吧?
产生的影响基本可以忽略。
你好,我还有一个问题,对于每个单词最后一行指代的标签我不是很懂,你知道它大概代表什么意思吗?
比如说如下我截取的几个单词:
bc/cctv/00/cctv_0000 8 1 the DT (S(NP* - - - Speaker#1 * * (ARG1* * * * (27
bc/cctv/00/cctv_0000 8 2 Zhuhai NNP (NML(NML*) - - - Speaker#1 (GPE) * * * * * (9|(19)
bc/cctv/00/cctv_0000 8 3 - HYPH * - - - Speaker#1 * * * * * * -
bc/cctv/00/cctv_0000 8 4 Hong NNP (NML* - - - Speaker#1 * * * * * * (11
bc/cctv/00/cctv_0000 8 5 Kong NNP ) - - - Speaker#1 * * * * * * 11)
bc/cctv/00/cctv_0000 8 6 - HYPH * - - - Speaker#1 * * * * * * -
bc/cctv/00/cctv_0000 8 7 Macao NNP (NML)) - - - Speaker#1 (GPE) * * * * * (30)|9)
bc/cctv/00/cctv_0000 8 8 bridge NN *) bridge - - Speaker#1 * * *) * * * 27)
非常感谢!
from e2e-joint-coref.
左括号+数字 与 对应的右括号+数字 之间所有的词组合成一个 mention。数字代表实体id,有相同的 id 的 mention 共指。一行有多个数字表示嵌套的mention。比如例子里 hong kong 对应的是 11 号实体,Zhuhai 对应 19 号实体,Zhuhai - Hong Kong - Macao 对应 9 号实体。
from e2e-joint-coref.
左括号+数字 与 对应的右括号+数字 之间所有的词组合成一个 mention。数字代表实体id,有相同的 id 的 mention 共指。一行有多个数字表示嵌套的mention。比如例子里 hong kong 对应的是 11 号实体,Zhuhai 对应 19 号实体,Zhuhai - Hong Kong - Macao 对应 9 号实体。
比如说如下几个单词:
bc/cctv/00/cctv_0000 0 0 With IN (TOP(S(PP* - - - Speaker#1 * * (ARGM-MNR* * -
bc/cctv/00/cctv_0000 0 1 their PRP$ (NP* - - - Speaker#1 * * * * (18)
bc/cctv/00/cctv_0000 0 2 unique JJ * - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 3 charm NN )) charm - - Speaker#1 * * ) * -
bc/cctv/00/cctv_0000 0 4 , , * - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 5 these DT (NP - - - Speaker#1 * * (ARG0 * (18
bc/cctv/00/cctv_0000 0 6 well RB (ADJP* - - - Speaker#1 * (ARGM-EXT*) * * -
bc/cctv/00/cctv_0000 0 7 - HYPH * - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 8 known VBN ) know 01 - Speaker#1 * (V) * * -
bc/cctv/00/cctv_0000 0 9 cartoon NN * - - - Speaker#1 * (ARG1*) * * -
bc/cctv/00/cctv_0000 0 10 images NNS ) image - - Speaker#1 * (C-ARG1) *) * 18)
their 和 these well - known cartoon images是共指关系?
from e2e-joint-coref.
左括号+数字 与 对应的右括号+数字 之间所有的词组合成一个 mention。数字代表实体id,有相同的 id 的 mention 共指。一行有多个数字表示嵌套的mention。比如例子里 hong kong 对应的是 11 号实体,Zhuhai 对应 19 号实体,Zhuhai - Hong Kong - Macao 对应 9 号实体。
比如说如下几个单词: bc/cctv/00/cctv_0000 0 0 With IN (TOP(S(PP* - - - Speaker#1 * * (ARGM-MNR* * - bc/cctv/00/cctv_0000 0 1 their PRP$ (NP* - - - Speaker#1 * * * * (18) bc/cctv/00/cctv_0000 0 2 unique JJ * - - - Speaker#1 * * * * - bc/cctv/00/cctv_0000 0 3 charm NN )) charm - - Speaker#1 * * ) * - bc/cctv/00/cctv_0000 0 4 , , * - - - Speaker#1 * * * * - bc/cctv/00/cctv_0000 0 5 these DT (NP - - - Speaker#1 * * (ARG0 * (18 bc/cctv/00/cctv_0000 0 6 well RB (ADJP* - - - Speaker#1 * (ARGM-EXT*) * * - bc/cctv/00/cctv_0000 0 7 - HYPH * - - - Speaker#1 * * * * - bc/cctv/00/cctv_0000 0 8 known VBN ) know 01 - Speaker#1 * (V) * * - bc/cctv/00/cctv_0000 0 9 cartoon NN * - - - Speaker#1 * (ARG1*) * * - bc/cctv/00/cctv_0000 0 10 images NNS ) image - - Speaker#1 * (C-ARG1) *) * 18)
their 和 these well - known cartoon images是共指关系?
是的
from e2e-joint-coref.
4 Hong NNP (NML* - - - Speaker#1 * * * * * * (11
bc/cctv/00/cctv_0000 8 5 Kong NNP ) - - - Speaker#1 * * * * * * 11)
那如果同一个文档出行某一句子中的如下单词:
bc/cctv/00/cctv_0000 10 0 Wang NNP (TOP(S(NP* - - - Speaker#9 (PERSON* (ARG0* * * * * (23
bc/cctv/00/cctv_0000 10 1 Jin NNP * - - - Speaker#9 * * * * * * -
bc/cctv/00/cctv_0000 10 2 - HYPH * - - - Speaker#9 * * * * * * -
bc/cctv/00/cctv_0000 10 3 pyng NNP ) - - - Speaker#9 ) ) * * * * 23)
bc/cctv/00/cctv_0000 10 4 says VBZ (VP say 01 1 Speaker#9 * (V) * * * * -
bc/cctv/00/cctv_0000 10 5 that IN (SBAR - - - Speaker#9 * (ARG1* * * * * -
bc/cctv/00/cctv_0000 10 6 he PRP (S(NP*) - - - Speaker#9 * * * (ARG0*) (ARG0*) (ARG0*) (23)
可以认为 hong kong 和 he为共指关系?
感觉不大对,是因为数据本身标注问题吗?
from e2e-joint-coref.
4 Hong NNP (NML* - - - Speaker#1 * * * * * * (11
bc/cctv/00/cctv_0000 8 5 Kong NNP ) - - - Speaker#1 * * * * * * 11)那如果同一个文档出行某一句子中的如下单词: bc/cctv/00/cctv_0000 10 0 Wang NNP (TOP(S(NP* - - - Speaker#9 (PERSON* (ARG0* * * * * (23 bc/cctv/00/cctv_0000 10 1 Jin NNP * - - - Speaker#9 * * * * * * - bc/cctv/00/cctv_0000 10 2 - HYPH * - - - Speaker#9 * * * * * * - bc/cctv/00/cctv_0000 10 3 pyng NNP ) - - - Speaker#9 ) ) * * * * 23) bc/cctv/00/cctv_0000 10 4 says VBZ (VP say 01 1 Speaker#9 * (V) * * * * - bc/cctv/00/cctv_0000 10 5 that IN (SBAR - - - Speaker#9 * (ARG1* * * * * - bc/cctv/00/cctv_0000 10 6 he PRP (S(NP*) - - - Speaker#9 * * * (ARG0*) (ARG0*) (ARG0*) (23)
可以认为 hong kong 和 he为共指关系? 感觉不大对,是因为数据本身标注问题吗?
这里的 he 不是 23 号实体吗,hongkong 是 23 号吗
from e2e-joint-coref.
Zhuhai NNP
我明白了就是这个mention id的范围不是一整个文档,而是文档的一个part,不知道我说的对不对?
from e2e-joint-coref.
Zhuhai NNP
我明白了就是这个mention id的范围不是一整个文档,而是文档的一个part,不知道我说的对不对?
是的,所以需要对文档切分
from e2e-joint-coref.
Zhuhai NNP
我明白了就是这个mention id的范围不是一整个文档,而是文档的一个part,不知道我说的对不对?
是的,所以需要对文档切分
那就没问题了,我以为一个文档一个范围,怪不得看起来怪怪的,谢谢了。
from e2e-joint-coref.
Zhuhai NNP
我明白了就是这个mention id的范围不是一整个文档,而是文档的一个part,不知道我说的对不对?
是的,所以需要对文档切分
你好,我有一个新的问题想要请教你,我看了conll12任务的数据集,这个数据集其实分了很多的类别,如果我只想做代词指代消解的实验,但是我看数据集并没有类别的划分,所以想问一下。
谢谢!!!!
from e2e-joint-coref.
随便选一个类别训练测试就行了,或者检查项目中和genre有关的代码和配置,按照需要删除或者设置为1
from e2e-joint-coref.
随便选一个类别训练测试就行了,或者检查项目中和genre有关的代码和配置,按照需要删除或者设置为1
我想问的就是如何选一个类别来训练,因为conll 12的数据集不是只按体裁进行分类。。。
from e2e-joint-coref.
随便选一个类别训练测试就行了,或者检查项目中和genre有关的代码和配置,按照需要删除或者设置为1
我想问的就是如何选一个类别来训练,因为conll 12的数据集不是只按体裁进行分类。。。
例如可以将每个样例里的genre字段设置为"bc"
from e2e-joint-coref.
随便选一个类别训练测试就行了,或者检查项目中和genre有关的代码和配置,按照需要删除或者设置为1
我想问的就是如何选一个类别来训练,因为conll 12的数据集不是只按体裁进行分类。。。
例如可以将每个样例里的genre字段设置为"bc"
我觉得你可能误解我的意思了,比如说:
“欢迎大家来到香港,祝大家在香港玩的开心。”
这一句话有两个指代,“大家”->“大家”,“香港”->“香港”,那我只想保留人称代词,我看conll12论文有分类,但是数据集只有体裁分类,所以想问一下。
from e2e-joint-coref.
我认为这个端到端的框架不适合专门做某一种类型的指代的消解,因为模型需要利用消解的全局信息,而全局信息是包括所有种类的指代在内的。
一个可能的方案是训练时使用所有指代正常地训练,验证测试时只测试代词型指代。设计一个代词指代的评价指标,做一个代词指代验证测试集。
from e2e-joint-coref.
Related Issues (3)
- 中文指代消解模型收敛很慢 HOT 1
- bug in `predict.py` HOT 1
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from e2e-joint-coref.