Git Product home page Git Product logo

Comments (3)

paralym avatar paralym commented on September 1, 2024

抱歉回复的有点晚,这个图很有意思hhh

对于问题的话

Q1:我们暂时还在实验来找到一个比较合适的数据配比,目前部分主观感受可能是相比其他中文模型少了些翻译腔,事实性这块更有特点,比如体现在如果提的问题有错误,回答有可能会指出来,也许是受到知乎“先问是不是,再问为什么”风气的影响。不过得看我们最终放出来的模型,尽量找到一个比较好的权衡。另外正式版数据(继续做了清洗和补充)、模型和论文尽量月末之前会出来。

Q2:我们很乐意加入真实对话数据,从您的数据介绍来看,是从WildChat中抽取出中文并过滤得到的吗,我认为也是对中文社区非常有意义的数据集,如果按照我们的流程将您的数据加入SFT的话,还需要人工验证一波回答,可能时间有点来不及了

Q3:确实和Tulu有些类似,混合了各种数据来源,其实很多来源在最开始并没有考虑,都是收集中看到质量高的就加进来的,coig-core这部分数据从子任务层面上看diversity也许没有原版的高,种类从原来的1k(coig-core中只含中英两种语言的files),筛选到了200左右,不过主观上我认为原版中很多任务相似度很高,我们筛选出来的子集已经具有一定代表性。后面我们会尝试从各指标来分析CQIA的diversity。

from coig-cqia.

nuoma avatar nuoma commented on September 1, 2024

感谢你的回答,我也分享一下我的想法。

真实对话数据是从WildChat中抽取出中文并进行clustering得到的。我理解时间上来不及,如果你们有意愿把CQIA做成一个像tulu一样会更新到第二版,或一个长期持续更新的数据集,相信对于中文开源界会是非常大的贡献(which is extremely欠缺,SFT方面除了年初的moss003和coig以后就非常欠缺中文的开放数据集。

对于采用coig-core或者-lite,私以为将instruction通过大模型在不改变原意的情况下改写会是一个好的选择。

至于CQIA里面的不同class,我把instruction通过bert-base-chinese转成向量并做了一下umap的可视化,抱歉格式稀烂没有仔细调整,第一感觉是绝大部分(如知乎)语义上聚类没问题,但郊区的wikihow和电影推荐独自一坨确实没料到。

image

第二个可视化是CQIA和其他几个我觉得有代表性的中文数据集:kun, moss, wildchat, coig-pc-lite。通过放大观察,发现覆盖面最广的是Wildchat。kun,moss,coig各自语义有扎堆。而CQIA也能做到非常广泛的语义覆盖,并且很有趣的是在外围零散的点位会出现扎堆(coig-pc-lite也有,但这些地方往往都没有观察到wildchat的出现)。
image

同样的可视化手段,在英文领域对slim orca, tulu v2, sharegpt也做了一个(这是最一开始用的tsne,后来想想不对换成了umap),其实我觉得这张图能说明tulu v2 semantically include shareGPT, and roughly cover the semantic space of slim-orca
Image

语义覆盖可视化这件事情是这两天的突发奇想,还没有想的很明白。如果有初步结论的话,我认为:
1.通过类比英文领域的结果,CQIA暂时还做不到像tulu v2那样高的覆盖率。
2.但和已有的中文数据集做对比,CQIA已经能做到非常广泛的覆盖,如果能够结合COIG-PC-Lite这种的数据集,在郊区的覆盖率会更高。目前看来郊区是Wildchat这种并没有覆盖到的,考虑到他们的对话数据收集方式(hf spaces),可能是因为使用人群问的问题不如像英文shareGPT那样的广泛和多样。
3.当然了一个大前提是这么干semantic space visualization的方法是正确的,说实话也确实没看过有人这么干过。

anyway依然会持续关注你们的工作

from coig-cqia.

paralym avatar paralym commented on September 1, 2024

感谢您做的非常有趣的分析!不知道您最近有没有时间作为co-author加入我们论文的写作,您可以基于或继续扩展您现有的分析来撰写相应部分,如果您愿意加入,我们非常欢迎!我的微信是du33head

对于第二版数据,我个人是愿意继续贡献的,不过也需要看后续的项目安排。指令改写我觉得也可以,没准还能修正原有的错误。

CQIA的UMAP图的话,wikihow离主体比较远我个人也比较意外,知乎应该涵盖了类似的问题,也有可能确实wikihow这种“如何”的指令过短或和其他数据确实存在明显差异。电影推荐应该比较特殊,因为构造时是各种由多种模板拼接而成(直觉上sft时也不宜放太多)。

第二个和其他中文数据对比的图中,CQIA似乎在各方向的郊区有好几处扎堆?COIG-PC-lite在图下方扎堆的黄色您有看到主要是什么任务吗

对于您的初步结论我也基本都认同,做到tuluv2这样的覆盖率应该还有一段路要走,COIG-PC-Lite的这种现象也许是因为收集到的很少见的任务?semantic我认为基本可以看到数据集的趋势,我们也会尝试从其他方面分析和筛选数据,例如一些衡量数据质量的方式,如IFD

from coig-cqia.

Related Issues (9)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.