nilboy / gaic_track3_pair_sim Goto Github PK

View Code? Open in Web Editor NEW

236.0 236.0 59.0 163 KB

全球人工智能技术创新大赛-赛道三-冠军方案

Python 97.81% Shell 2.15% Dockerfile 0.04%

text-pair

gaic_track3_pair_sim's Introduction

gaic_track3_pair_sim's People

Contributors

Stargazers

Watchers

gaic_track3_pair_sim's Issues

测试数据和vocab问题

你好，请问gaiic_track3_round1_testB_20210317.tsv测试文件能提供一下吗？非常感谢！

另外，在看您的代码时有些疑惑，根据docker run走的流程如下：
run.sh->run_inner_2.sh-> pipeline/pipeline_d.py->process_data_s1.sh，然后执行了下面两个.py
convert_data.py --n_splits=8
process_oov_data.py

convert_data：对train.tsv抽取字表，字:字频保存为normal_vocab.json，字:索引保存为idmap.json；然后利用这两个表把train.tsv和test.tsv转为id表示后保存。
convert_data.py：这里用construct_vocab函数创建了另一个vocab.json(不同于idmap.json)，然后用convert_record_style函数根据vocab.json把之前保存的train.tsv和test.tsv(都用idmap.json转为id了)还原成文字，转完是乱码一样的文字。我疑惑的是为什么用不一样的词表转换呢？为什么这么做？

代码方案请教

感谢大佬开源方案，一边看代码一边跑从中学习了很多，有些两个问题想要请教一下：

初赛的时候，最终训练的模型是回归模型，这种做法有在哪个论文里面有提到过吗？还是只是比赛的一种trick
为什么初赛，复赛，复赛b榜的方案都不一样呢？感觉上做法是越做越简单了，最后定榜的模型直接是多个分类模型的average, 为什么之前的方法(构建soft label 训练regresssion model 和构建大的ensemble 模型的方法没有继续沿用了呢？ )

如果大佬还记得相关的细节，麻烦指导下，再次谢谢

模型融合

求教，多个模型是如何融合的？没太看懂代码

软标签

方案一中train.sh中，先预训练M个模型，然后训练M*K个kfold分类模型，并用这些分类模型对kfold数据打标签，得到classification的soft label的训练数据A。然后用ensemble模型，训练数据A训练kfold回归模型，然后再给kfold数据打标签，然后得到regression的soft label的训练数据B，然后在用ensemble模型，训练数据B训练全量回归模型。
请教下为什么要打两次softlabel标签呢？基于分类模型来预测的softlabel，直接训练一次回归模型可以吗

数据

天池网站的数据已经无法获取，可否给一个链接获取比赛数据

nilboy / gaic_track3_pair_sim Goto Github PK

gaic_track3_pair_sim's Introduction

gaic_track3_pair_sim's People

Contributors

Stargazers

Watchers

Forkers

gaic_track3_pair_sim's Issues

测试数据和vocab问题

代码方案请教

模型融合

软标签

数据

hello,请问一下代码中哪里能找到动态掩码的实现，找半天没找到

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent