Git Product home page Git Product logo

Comments (8)

BAAI-OpenPlatform avatar BAAI-OpenPlatform commented on August 27, 2024

您好,

  1. 目前暂时没有在阅读理解上调试好的模型
  2. 谢谢您的反馈,我们会为这部分补充说明
  3. 如果想模仿数据集输入格式的话,可以在./data下建一个同原数据集名称一样的文件夹,这样应该能够work

from flagai.

svjack avatar svjack commented on August 27, 2024

您好,

  1. 目前暂时没有在阅读理解上调试好的模型
  2. 谢谢您的反馈,我们会为这部分补充说明
  3. 如果想模仿数据集输入格式的话,可以在./data下建一个同原数据集名称一样的文件夹,这样应该能够work

作为生成器 解码段在长文本上会具有一定的优势,而在唯一短span抽取上对于抽取式未必有优势。
你们有调研过一些长答案阅读理解类的中文开源数据集吗?

from flagai.

svjack avatar svjack commented on August 27, 2024

您好,

  1. 目前暂时没有在阅读理解上调试好的模型
  2. 谢谢您的反馈,我们会为这部分补充说明
  3. 如果想模仿数据集输入格式的话,可以在./data下建一个同原数据集名称一样的文件夹,这样应该能够work

根据这段代码

source_tokens = [cls_id] + question_tokens + [
                mask_id
            ] + source_tokens[:max_src_length]

prompt中 “答案:" 后面直接跟 "MASK" 没有中括号 之后直接是context了是吗?
感觉有点别扭

from flagai.

svjack avatar svjack commented on August 27, 2024

并不像你在数据集预处理文档中描述的有 “背景信息:”的输入文本作为prompt构成。
https://github.com/FlagAI-Open/FlagAI/blob/master/docs/TUTORIAL_2_DATASET.md
但又很像,有什么原因吗?
能不能给出一个已经嵌入cmrc prompt 的predictor 的简单实现呢?

from flagai.

BAAI-OpenPlatform avatar BAAI-OpenPlatform commented on August 27, 2024

https://github.com/FlagAI-Open/FlagAI/blob/master/docs/TUTORIAL_2_DATASET.md里的是提示学习的数据处理方式,
这里的seq2seq例子里,CMRC没有用到提示学习,先在flagai.data.dataset.seq2seq.dataset.CMRCProcessor里预处理,然后在collate_fn里组合出最终的tokens

from flagai.

svjack avatar svjack commented on August 27, 2024

https://github.com/FlagAI-Open/FlagAI/blob/master/docs/TUTORIAL_2_DATASET.md里的是提示学习的数据处理方式,
这里的seq2seq例子里,CMRC没有用到提示学习,先在flagai.data.dataset.seq2seq.dataset.CMRCProcessor里预处理,然后在collate_fn里组合出最终的tokens

没有用到提示学习 但在你的数据预处理函数中将数据用了

question_tokens = self.tokenizer.EncodeAsIds("问题:" + question +
                                                         "答案:")

source_tokens = [cls_id] + question_tokens + [
                mask_id
            ] + source_tokens[:max_src_length]

这种提示学习的编码方式,所以在估计的时候也要进行相同处理,但你没有给出 背景信息(或上下文)与前面的明确间隙(这里是MASK作为分隔),这种处理总感觉有些别扭。
不同的slot都应该有不同的提示词进行区分如:
问题:
答案:
背景信息:
区分开 好像才更整齐一些

from flagai.

svjack avatar svjack commented on August 27, 2024

实际在MRC任务上微调的过程,就是把blank filling QA换了一副固定模版 这个固定模版就是
问题:
答案:
背景信息:
求答案。而原来的blank filling QA不具有识别“背景信息:”作为参考的推理能力。(经过测试)
你来源于它,就应该尽量全方位“模仿”

from flagai.

BAAI-OpenPlatform avatar BAAI-OpenPlatform commented on August 27, 2024

好的,感谢反馈,您是怎么测试的呢

from flagai.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.