Git Product home page Git Product logo

Comments (22)

cheniison avatar cheniison commented on September 15, 2024

我重新跑了一遍数据处理代码,验证集是251个文档。论文上确实有问题,可能错误引用了用旧的处理方法跑的数据集信息。旧的处理方法忽略了不存在指代的文档,由于不存在指代的文档结构与其他文档略有不同,旧的方法鲁棒性不够所以跳过了这类文档。验证集中存在1个这样的文档,即bn/cnr/00/cnr_0060。测试集里没有,不影响测试结果。
不过我没有跑出252个文档的结果,不清楚处理过程中是不是有其他文档也忽略了。我之后把验证集的文档名列表发出来,可以对比一下是哪一篇漏掉了。

from e2e-joint-coref.

cheniison avatar cheniison commented on September 15, 2024

以下是 251 个验证集文档名:

cctv_0000.onf_0
cctv_0000.onf_1
cctv_0000.onf_2
cctv_0000.onf_3
cctv_0000.onf_4
cctv_0000.onf_5
cnn_0000.onf_0
cnn_0000.onf_1
cnn_0000.onf_2
cnn_0000.onf_3
cnn_0000.onf_4
cnn_0000.onf_5
cnn_0000.onf_6
cnn_0000.onf_7
cnn_0000.onf_8
msnbc_0000.onf_0
msnbc_0000.onf_1
msnbc_0000.onf_2
msnbc_0000.onf_3
msnbc_0000.onf_4
msnbc_0000.onf_5
msnbc_0000.onf_6
msnbc_0000.onf_7
phoenix_0000.onf_0
phoenix_0000.onf_1
phoenix_0000.onf_2
phoenix_0000.onf_3
phoenix_0010.onf_0
phoenix_0010.onf_1
phoenix_0010.onf_2
phoenix_0010.onf_3
phoenix_0010.onf_4
phoenix_0010.onf_5
phoenix_0010.onf_6
phoenix_0010.onf_7
phoenix_0010.onf_8
phoenix_0010.onf_9
phoenix_0010.onf_10
phoenix_0010.onf_11
phoenix_0010.onf_12
phoenix_0010.onf_13
cbs_0010.onf_0
cbs_0020.onf_0
cbs_0030.onf_0
cbs_0040.onf_0
cbs_0050.onf_0
cbs_0060.onf_0
cbs_0070.onf_0
cbs_0080.onf_0
cbs_0090.onf_0
cbs_0100.onf_0
cbs_0110.onf_0
cbs_0120.onf_0
cbs_0130.onf_0
cbs_0140.onf_0
cbs_0150.onf_0
cbs_0160.onf_0
cbs_0170.onf_0
cbs_0180.onf_0
cnr_0010.onf_0
cnr_0020.onf_0
cnr_0030.onf_0
cnr_0040.onf_0
cnr_0050.onf_0
cnr_0060.onf_0
cnr_0070.onf_0
cnr_0080.onf_0
cnr_0090.onf_0
cnr_0100.onf_0
cnr_0110.onf_0
cnr_0120.onf_0
cnr_0130.onf_0
cnr_0140.onf_0
cts_0010.onf_0
cts_0020.onf_0
cts_0030.onf_0
cts_0040.onf_0
cts_0050.onf_0
cts_0060.onf_0
cts_0070.onf_0
cts_0080.onf_0
cts_0090.onf_0
cts_0100.onf_0
cts_0110.onf_0
cts_0120.onf_0
cts_0130.onf_0
cts_0140.onf_0
cts_0150.onf_0
cts_0160.onf_0
cts_0170.onf_0
cts_0180.onf_0
cts_0190.onf_0
cts_0200.onf_0
cts_0210.onf_0
cts_0220.onf_0
cts_0230.onf_0
cts_0240.onf_0
cts_0250.onf_0
cts_0260.onf_0
cts_0270.onf_0
cts_0280.onf_0
cts_0290.onf_0
cts_0300.onf_0
cts_0310.onf_0
ctv_0010.onf_0
ctv_0020.onf_0
ctv_0030.onf_0
ctv_0040.onf_0
ctv_0050.onf_0
ctv_0060.onf_0
ctv_0070.onf_0
ctv_0080.onf_0
ctv_0090.onf_0
ctv_0100.onf_0
ctv_0110.onf_0
ctv_0120.onf_0
ctv_0130.onf_0
ctv_0140.onf_0
ctv_0150.onf_0
ctv_0160.onf_0
ctv_0170.onf_0
ctv_0180.onf_0
ctv_0190.onf_0
vom_0010.onf_0
vom_0020.onf_0
vom_0030.onf_0
vom_0040.onf_0
vom_0050.onf_0
vom_0060.onf_0
vom_0070.onf_0
vom_0080.onf_0
vom_0090.onf_0
vom_0100.onf_0
vom_0110.onf_0
vom_0120.onf_0
vom_0130.onf_0
vom_0140.onf_0
vom_0150.onf_0
vom_0160.onf_0
vom_0170.onf_0
vom_0180.onf_0
vom_0190.onf_0
vom_0200.onf_0
vom_0210.onf_0
vom_0220.onf_0
vom_0230.onf_0
vom_0240.onf_0
vom_0250.onf_0
vom_0260.onf_0
vom_0270.onf_0
vom_0280.onf_0
vom_0290.onf_0
vom_0300.onf_0
vom_0310.onf_0
vom_0320.onf_0
chtb_1010.onf_0
chtb_1020.onf_0
chtb_1030.onf_0
chtb_1040.onf_0
chtb_1050.onf_0
chtb_1060.onf_0
chtb_1070.onf_0
chtb_0010.onf_0
chtb_0020.onf_0
chtb_0030.onf_0
chtb_0040.onf_0
chtb_0050.onf_0
chtb_0060.onf_0
chtb_0070.onf_0
chtb_0080.onf_0
chtb_0090.onf_0
chtb_0100.onf_0
chtb_0110.onf_0
chtb_0120.onf_0
chtb_0130.onf_0
chtb_0140.onf_0
chtb_0150.onf_0
chtb_0160.onf_0
chtb_0170.onf_0
chtb_0180.onf_0
chtb_0190.onf_0
chtb_0200.onf_0
chtb_0210.onf_0
chtb_0220.onf_0
chtb_0230.onf_0
chtb_0240.onf_0
chtb_0250.onf_0
chtb_0260.onf_0
chtb_0270.onf_0
chtb_0280.onf_0
chtb_0290.onf_0
chtb_0300.onf_0
chtb_0310.onf_0
chtb_0320.onf_0
ch_0010.onf_0
ch_0010.onf_1
ch_0010.onf_2
ch_0010.onf_3
ch_0010.onf_4
ch_0010.onf_5
ch_0010.onf_6
ch_0010.onf_7
ch_0020.onf_0
ch_0020.onf_1
ch_0020.onf_2
ch_0020.onf_3
ch_0020.onf_4
ch_0020.onf_5
ch_0020.onf_6
ch_0020.onf_7
ch_0020.onf_8
ch_0020.onf_9
ch_0020.onf_10
ch_0020.onf_11
ch_0020.onf_12
ch_0020.onf_13
ch_0020.onf_14
ch_0020.onf_15
ch_0030.onf_0
ch_0030.onf_1
ch_0030.onf_2
ch_0030.onf_3
ch_0030.onf_4
ch_0040.onf_0
ch_0040.onf_1
ch_0040.onf_2
ch_0040.onf_3
ch_0040.onf_4
ch_0040.onf_5
ch_0040.onf_6
cmn_0010.onf_0
cmn_0030.onf_0
cmn_0040.onf_0
cmn_0050.onf_0
dev_09_cmn_0000.onf_0
dev_09_cmn_0000.onf_1
dev_09_cmn_0030.onf_0
dev_09_cmn_0040.onf_0
dev_09_cmn_0040.onf_1
dev_09_cmn_0040.onf_2
dev_09_cmn_0050.onf_0
dev_09_cmn_0050.onf_1
dev_09_cmn_0060.onf_0
e2c_0010.onf_0
e2c_0010.onf_1
e2c_0010.onf_2
e2c_0010.onf_3
e2c_0010.onf_4
e2c_0010.onf_5
e2c_0010.onf_6
e2c_0010.onf_7

from e2e-joint-coref.

leileilin avatar leileilin commented on September 15, 2024

e2c_0010

我有17个ch_0020文档,你可以手动看看原始文件。

from e2e-joint-coref.

leileilin avatar leileilin commented on September 15, 2024

以下是 251 个验证集文档名:

cctv_0000.onf_0
cctv_0000.onf_1
cctv_0000.onf_2
cctv_0000.onf_3
cctv_0000.onf_4
cctv_0000.onf_5
cnn_0000.onf_0
cnn_0000.onf_1
cnn_0000.onf_2
cnn_0000.onf_3
cnn_0000.onf_4
cnn_0000.onf_5
cnn_0000.onf_6
cnn_0000.onf_7
cnn_0000.onf_8
msnbc_0000.onf_0
msnbc_0000.onf_1
msnbc_0000.onf_2
msnbc_0000.onf_3
msnbc_0000.onf_4
msnbc_0000.onf_5
msnbc_0000.onf_6
msnbc_0000.onf_7
phoenix_0000.onf_0
phoenix_0000.onf_1
phoenix_0000.onf_2
phoenix_0000.onf_3
phoenix_0010.onf_0
phoenix_0010.onf_1
phoenix_0010.onf_2
phoenix_0010.onf_3
phoenix_0010.onf_4
phoenix_0010.onf_5
phoenix_0010.onf_6
phoenix_0010.onf_7
phoenix_0010.onf_8
phoenix_0010.onf_9
phoenix_0010.onf_10
phoenix_0010.onf_11
phoenix_0010.onf_12
phoenix_0010.onf_13
cbs_0010.onf_0
cbs_0020.onf_0
cbs_0030.onf_0
cbs_0040.onf_0
cbs_0050.onf_0
cbs_0060.onf_0
cbs_0070.onf_0
cbs_0080.onf_0
cbs_0090.onf_0
cbs_0100.onf_0
cbs_0110.onf_0
cbs_0120.onf_0
cbs_0130.onf_0
cbs_0140.onf_0
cbs_0150.onf_0
cbs_0160.onf_0
cbs_0170.onf_0
cbs_0180.onf_0
cnr_0010.onf_0
cnr_0020.onf_0
cnr_0030.onf_0
cnr_0040.onf_0
cnr_0050.onf_0
cnr_0060.onf_0
cnr_0070.onf_0
cnr_0080.onf_0
cnr_0090.onf_0
cnr_0100.onf_0
cnr_0110.onf_0
cnr_0120.onf_0
cnr_0130.onf_0
cnr_0140.onf_0
cts_0010.onf_0
cts_0020.onf_0
cts_0030.onf_0
cts_0040.onf_0
cts_0050.onf_0
cts_0060.onf_0
cts_0070.onf_0
cts_0080.onf_0
cts_0090.onf_0
cts_0100.onf_0
cts_0110.onf_0
cts_0120.onf_0
cts_0130.onf_0
cts_0140.onf_0
cts_0150.onf_0
cts_0160.onf_0
cts_0170.onf_0
cts_0180.onf_0
cts_0190.onf_0
cts_0200.onf_0
cts_0210.onf_0
cts_0220.onf_0
cts_0230.onf_0
cts_0240.onf_0
cts_0250.onf_0
cts_0260.onf_0
cts_0270.onf_0
cts_0280.onf_0
cts_0290.onf_0
cts_0300.onf_0
cts_0310.onf_0
ctv_0010.onf_0
ctv_0020.onf_0
ctv_0030.onf_0
ctv_0040.onf_0
ctv_0050.onf_0
ctv_0060.onf_0
ctv_0070.onf_0
ctv_0080.onf_0
ctv_0090.onf_0
ctv_0100.onf_0
ctv_0110.onf_0
ctv_0120.onf_0
ctv_0130.onf_0
ctv_0140.onf_0
ctv_0150.onf_0
ctv_0160.onf_0
ctv_0170.onf_0
ctv_0180.onf_0
ctv_0190.onf_0
vom_0010.onf_0
vom_0020.onf_0
vom_0030.onf_0
vom_0040.onf_0
vom_0050.onf_0
vom_0060.onf_0
vom_0070.onf_0
vom_0080.onf_0
vom_0090.onf_0
vom_0100.onf_0
vom_0110.onf_0
vom_0120.onf_0
vom_0130.onf_0
vom_0140.onf_0
vom_0150.onf_0
vom_0160.onf_0
vom_0170.onf_0
vom_0180.onf_0
vom_0190.onf_0
vom_0200.onf_0
vom_0210.onf_0
vom_0220.onf_0
vom_0230.onf_0
vom_0240.onf_0
vom_0250.onf_0
vom_0260.onf_0
vom_0270.onf_0
vom_0280.onf_0
vom_0290.onf_0
vom_0300.onf_0
vom_0310.onf_0
vom_0320.onf_0
chtb_1010.onf_0
chtb_1020.onf_0
chtb_1030.onf_0
chtb_1040.onf_0
chtb_1050.onf_0
chtb_1060.onf_0
chtb_1070.onf_0
chtb_0010.onf_0
chtb_0020.onf_0
chtb_0030.onf_0
chtb_0040.onf_0
chtb_0050.onf_0
chtb_0060.onf_0
chtb_0070.onf_0
chtb_0080.onf_0
chtb_0090.onf_0
chtb_0100.onf_0
chtb_0110.onf_0
chtb_0120.onf_0
chtb_0130.onf_0
chtb_0140.onf_0
chtb_0150.onf_0
chtb_0160.onf_0
chtb_0170.onf_0
chtb_0180.onf_0
chtb_0190.onf_0
chtb_0200.onf_0
chtb_0210.onf_0
chtb_0220.onf_0
chtb_0230.onf_0
chtb_0240.onf_0
chtb_0250.onf_0
chtb_0260.onf_0
chtb_0270.onf_0
chtb_0280.onf_0
chtb_0290.onf_0
chtb_0300.onf_0
chtb_0310.onf_0
chtb_0320.onf_0
ch_0010.onf_0
ch_0010.onf_1
ch_0010.onf_2
ch_0010.onf_3
ch_0010.onf_4
ch_0010.onf_5
ch_0010.onf_6
ch_0010.onf_7
ch_0020.onf_0
ch_0020.onf_1
ch_0020.onf_2
ch_0020.onf_3
ch_0020.onf_4
ch_0020.onf_5
ch_0020.onf_6
ch_0020.onf_7
ch_0020.onf_8
ch_0020.onf_9
ch_0020.onf_10
ch_0020.onf_11
ch_0020.onf_12
ch_0020.onf_13
ch_0020.onf_14
ch_0020.onf_15
ch_0030.onf_0
ch_0030.onf_1
ch_0030.onf_2
ch_0030.onf_3
ch_0030.onf_4
ch_0040.onf_0
ch_0040.onf_1
ch_0040.onf_2
ch_0040.onf_3
ch_0040.onf_4
ch_0040.onf_5
ch_0040.onf_6
cmn_0010.onf_0
cmn_0030.onf_0
cmn_0040.onf_0
cmn_0050.onf_0
dev_09_cmn_0000.onf_0
dev_09_cmn_0000.onf_1
dev_09_cmn_0030.onf_0
dev_09_cmn_0040.onf_0
dev_09_cmn_0040.onf_1
dev_09_cmn_0040.onf_2
dev_09_cmn_0050.onf_0
dev_09_cmn_0050.onf_1
dev_09_cmn_0060.onf_0
e2c_0010.onf_0
e2c_0010.onf_1
e2c_0010.onf_2
e2c_0010.onf_3
e2c_0010.onf_4
e2c_0010.onf_5
e2c_0010.onf_6
e2c_0010.onf_7

并且我用的数据处理是别人的数据处理流程。。

from e2e-joint-coref.

cheniison avatar cheniison commented on September 15, 2024

我检查了一下,ch_0020中的第15个section(即section_14)仅存在一个句子且不包含指代。我实现的数据处理方法是直接对onf文件处理的,无法将这个section区分出来,实际上这个section已经包含在第16个section,即ch_0020.onf_14(原本的第15消失了,第16个section变成了第15个,计数从0开始,所以是onf_14)中。数据都是在里面的,不影响验证结果。

from e2e-joint-coref.

leileilin avatar leileilin commented on September 15, 2024

我检查了一下,ch_0020中的第15个section(即section_14)仅存在一个句子且不包含指代。我实现的数据处理方法是直接对onf文件处理的,无法将这个section区分出来,实际上这个section已经包含在第16个section,即ch_0020.onf_14(原本的第15消失了,第16个section变成了第15个,计数从0开始,所以是onf_14)中。数据都是在里面的,不影响验证结果。

好的,非常感谢,那如果我把它当作一个文档来处理应该不影响实验结果吧?

from e2e-joint-coref.

cheniison avatar cheniison commented on September 15, 2024

我检查了一下,ch_0020中的第15个section(即section_14)仅存在一个句子且不包含指代。我实现的数据处理方法是直接对onf文件处理的,无法将这个section区分出来,实际上这个section已经包含在第16个section,即ch_0020.onf_14(原本的第15消失了,第16个section变成了第15个,计数从0开始,所以是onf_14)中。数据都是在里面的,不影响验证结果。

好的,非常感谢,那如果我把它当作一个文档来处理应该不影响实验结果吧?

产生的影响基本可以忽略。

from e2e-joint-coref.

leileilin avatar leileilin commented on September 15, 2024

我检查了一下,ch_0020中的第15个section(即section_14)仅存在一个句子且不包含指代。我实现的数据处理方法是直接对onf文件处理的,无法将这个section区分出来,实际上这个section已经包含在第16个section,即ch_0020.onf_14(原本的第15消失了,第16个section变成了第15个,计数从0开始,所以是onf_14)中。数据都是在里面的,不影响验证结果。

好的,非常感谢,那如果我把它当作一个文档来处理应该不影响实验结果吧?

产生的影响基本可以忽略。

你好,我还有一个问题,对于每个单词最后一行指代的标签我不是很懂,你知道它大概代表什么意思吗?
比如说如下我截取的几个单词:
bc/cctv/00/cctv_0000 8 1 the DT (S(NP* - - - Speaker#1 * * (ARG1* * * * (27
bc/cctv/00/cctv_0000 8 2 Zhuhai NNP (NML(NML*) - - - Speaker#1 (GPE) * * * * * (9|(19)
bc/cctv/00/cctv_0000 8 3 - HYPH * - - - Speaker#1 * * * * * * -
bc/cctv/00/cctv_0000 8 4 Hong NNP (NML* - - - Speaker#1 * * * * * * (11
bc/cctv/00/cctv_0000 8 5 Kong NNP ) - - - Speaker#1 * * * * * * 11)
bc/cctv/00/cctv_0000 8 6 - HYPH * - - - Speaker#1 * * * * * * -
bc/cctv/00/cctv_0000 8 7 Macao NNP (NML
)) - - - Speaker#1 (GPE) * * * * * (30)|9)
bc/cctv/00/cctv_0000 8 8 bridge NN *) bridge - - Speaker#1 * * *) * * * 27)
非常感谢!

from e2e-joint-coref.

cheniison avatar cheniison commented on September 15, 2024

左括号+数字 与 对应的右括号+数字 之间所有的词组合成一个 mention。数字代表实体id,有相同的 id 的 mention 共指。一行有多个数字表示嵌套的mention。比如例子里 hong kong 对应的是 11 号实体,Zhuhai 对应 19 号实体,Zhuhai - Hong Kong - Macao 对应 9 号实体。

from e2e-joint-coref.

leileilin avatar leileilin commented on September 15, 2024

左括号+数字 与 对应的右括号+数字 之间所有的词组合成一个 mention。数字代表实体id,有相同的 id 的 mention 共指。一行有多个数字表示嵌套的mention。比如例子里 hong kong 对应的是 11 号实体,Zhuhai 对应 19 号实体,Zhuhai - Hong Kong - Macao 对应 9 号实体。

比如说如下几个单词:
bc/cctv/00/cctv_0000 0 0 With IN (TOP(S(PP* - - - Speaker#1 * * (ARGM-MNR* * -
bc/cctv/00/cctv_0000 0 1 their PRP$ (NP* - - - Speaker#1 * * * * (18)
bc/cctv/00/cctv_0000 0 2 unique JJ * - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 3 charm NN )) charm - - Speaker#1 * * ) * -
bc/cctv/00/cctv_0000 0 4 , , * - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 5 these DT (NP
- - - Speaker#1 * * (ARG0
* (18
bc/cctv/00/cctv_0000 0 6 well RB (ADJP* - - - Speaker#1 * (ARGM-EXT*) * * -
bc/cctv/00/cctv_0000 0 7 - HYPH * - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 8 known VBN ) know 01 - Speaker#1 * (V) * * -
bc/cctv/00/cctv_0000 0 9 cartoon NN * - - - Speaker#1 * (ARG1*) * * -
bc/cctv/00/cctv_0000 0 10 images NNS ) image - - Speaker#1 * (C-ARG1) *) * 18)

their 和 these well - known cartoon images是共指关系?

from e2e-joint-coref.

cheniison avatar cheniison commented on September 15, 2024

左括号+数字 与 对应的右括号+数字 之间所有的词组合成一个 mention。数字代表实体id,有相同的 id 的 mention 共指。一行有多个数字表示嵌套的mention。比如例子里 hong kong 对应的是 11 号实体,Zhuhai 对应 19 号实体,Zhuhai - Hong Kong - Macao 对应 9 号实体。

比如说如下几个单词: bc/cctv/00/cctv_0000 0 0 With IN (TOP(S(PP* - - - Speaker#1 * * (ARGM-MNR* * - bc/cctv/00/cctv_0000 0 1 their PRP$ (NP* - - - Speaker#1 * * * * (18) bc/cctv/00/cctv_0000 0 2 unique JJ * - - - Speaker#1 * * * * - bc/cctv/00/cctv_0000 0 3 charm NN )) charm - - Speaker#1 * * ) * - bc/cctv/00/cctv_0000 0 4 , , * - - - Speaker#1 * * * * - bc/cctv/00/cctv_0000 0 5 these DT (NP - - - Speaker#1 * * (ARG0 * (18 bc/cctv/00/cctv_0000 0 6 well RB (ADJP* - - - Speaker#1 * (ARGM-EXT*) * * - bc/cctv/00/cctv_0000 0 7 - HYPH * - - - Speaker#1 * * * * - bc/cctv/00/cctv_0000 0 8 known VBN ) know 01 - Speaker#1 * (V) * * - bc/cctv/00/cctv_0000 0 9 cartoon NN * - - - Speaker#1 * (ARG1*) * * - bc/cctv/00/cctv_0000 0 10 images NNS ) image - - Speaker#1 * (C-ARG1) *) * 18)

their 和 these well - known cartoon images是共指关系?

是的

from e2e-joint-coref.

leileilin avatar leileilin commented on September 15, 2024

4 Hong NNP (NML* - - - Speaker#1 * * * * * * (11
bc/cctv/00/cctv_0000 8 5 Kong NNP ) - - - Speaker#1 * * * * * * 11)

那如果同一个文档出行某一句子中的如下单词:
bc/cctv/00/cctv_0000 10 0 Wang NNP (TOP(S(NP* - - - Speaker#9 (PERSON* (ARG0* * * * * (23
bc/cctv/00/cctv_0000 10 1 Jin NNP * - - - Speaker#9 * * * * * * -
bc/cctv/00/cctv_0000 10 2 - HYPH * - - - Speaker#9 * * * * * * -
bc/cctv/00/cctv_0000 10 3 pyng NNP ) - - - Speaker#9 ) ) * * * * 23)
bc/cctv/00/cctv_0000 10 4 says VBZ (VP
say 01 1 Speaker#9 * (V
) * * * * -
bc/cctv/00/cctv_0000 10 5 that IN (SBAR
- - - Speaker#9 * (ARG1* * * * * -
bc/cctv/00/cctv_0000 10 6 he PRP (S(NP*) - - - Speaker#9 * * * (ARG0*) (ARG0*) (ARG0*) (23)

可以认为 hong kong 和 he为共指关系?
感觉不大对,是因为数据本身标注问题吗?

from e2e-joint-coref.

cheniison avatar cheniison commented on September 15, 2024

4 Hong NNP (NML* - - - Speaker#1 * * * * * * (11
bc/cctv/00/cctv_0000 8 5 Kong NNP ) - - - Speaker#1 * * * * * * 11)

那如果同一个文档出行某一句子中的如下单词: bc/cctv/00/cctv_0000 10 0 Wang NNP (TOP(S(NP* - - - Speaker#9 (PERSON* (ARG0* * * * * (23 bc/cctv/00/cctv_0000 10 1 Jin NNP * - - - Speaker#9 * * * * * * - bc/cctv/00/cctv_0000 10 2 - HYPH * - - - Speaker#9 * * * * * * - bc/cctv/00/cctv_0000 10 3 pyng NNP ) - - - Speaker#9 ) ) * * * * 23) bc/cctv/00/cctv_0000 10 4 says VBZ (VP say 01 1 Speaker#9 * (V) * * * * - bc/cctv/00/cctv_0000 10 5 that IN (SBAR - - - Speaker#9 * (ARG1* * * * * - bc/cctv/00/cctv_0000 10 6 he PRP (S(NP*) - - - Speaker#9 * * * (ARG0*) (ARG0*) (ARG0*) (23)

可以认为 hong kong 和 he为共指关系? 感觉不大对,是因为数据本身标注问题吗?

这里的 he 不是 23 号实体吗,hongkong 是 23 号吗

from e2e-joint-coref.

leileilin avatar leileilin commented on September 15, 2024

Zhuhai NNP

我明白了就是这个mention id的范围不是一整个文档,而是文档的一个part,不知道我说的对不对?

from e2e-joint-coref.

cheniison avatar cheniison commented on September 15, 2024

Zhuhai NNP

我明白了就是这个mention id的范围不是一整个文档,而是文档的一个part,不知道我说的对不对?

是的,所以需要对文档切分

from e2e-joint-coref.

leileilin avatar leileilin commented on September 15, 2024

Zhuhai NNP

我明白了就是这个mention id的范围不是一整个文档,而是文档的一个part,不知道我说的对不对?

是的,所以需要对文档切分

那就没问题了,我以为一个文档一个范围,怪不得看起来怪怪的,谢谢了。

from e2e-joint-coref.

leileilin avatar leileilin commented on September 15, 2024

Zhuhai NNP

我明白了就是这个mention id的范围不是一整个文档,而是文档的一个part,不知道我说的对不对?

是的,所以需要对文档切分

你好,我有一个新的问题想要请教你,我看了conll12任务的数据集,这个数据集其实分了很多的类别,如果我只想做代词指代消解的实验,但是我看数据集并没有类别的划分,所以想问一下。
谢谢!!!!

from e2e-joint-coref.

cheniison avatar cheniison commented on September 15, 2024

随便选一个类别训练测试就行了,或者检查项目中和genre有关的代码和配置,按照需要删除或者设置为1

from e2e-joint-coref.

leileilin avatar leileilin commented on September 15, 2024

随便选一个类别训练测试就行了,或者检查项目中和genre有关的代码和配置,按照需要删除或者设置为1

我想问的就是如何选一个类别来训练,因为conll 12的数据集不是只按体裁进行分类。。。

from e2e-joint-coref.

cheniison avatar cheniison commented on September 15, 2024

随便选一个类别训练测试就行了,或者检查项目中和genre有关的代码和配置,按照需要删除或者设置为1

我想问的就是如何选一个类别来训练,因为conll 12的数据集不是只按体裁进行分类。。。

例如可以将每个样例里的genre字段设置为"bc"

from e2e-joint-coref.

leileilin avatar leileilin commented on September 15, 2024

随便选一个类别训练测试就行了,或者检查项目中和genre有关的代码和配置,按照需要删除或者设置为1

我想问的就是如何选一个类别来训练,因为conll 12的数据集不是只按体裁进行分类。。。

例如可以将每个样例里的genre字段设置为"bc"

我觉得你可能误解我的意思了,比如说:
“欢迎大家来到香港,祝大家在香港玩的开心。”
这一句话有两个指代,“大家”->“大家”,“香港”->“香港”,那我只想保留人称代词,我看conll12论文有分类,但是数据集只有体裁分类,所以想问一下。

from e2e-joint-coref.

cheniison avatar cheniison commented on September 15, 2024

我认为这个端到端的框架不适合专门做某一种类型的指代的消解,因为模型需要利用消解的全局信息,而全局信息是包括所有种类的指代在内的。
一个可能的方案是训练时使用所有指代正常地训练,验证测试时只测试代词型指代。设计一个代词指代的评价指标,做一个代词指代验证测试集。

from e2e-joint-coref.

Related Issues (3)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.