Git Product home page Git Product logo

Comments (8)

306416836 avatar 306416836 commented on June 13, 2024 10

我觉着这个榜单是纯粹是为了抬星火

from superclue.

MysteryMulberry avatar MysteryMulberry commented on June 13, 2024 7

星火似乎对某些常问的问题提前设定好了,举个例子 问它一棵树上有10只鸟打死一只还有几只 它能答的不错,而把10换成114514就开始胡言乱语了。
我们也有对清华的 ChatGLM 模型做过测试。目前开源的模型采用的是 6B 参数版本,该模型甚至无法理解选择题这种出题形式,无法正常给出选择结果,几乎无法完成评测试题内容。。等后续出了 120B 版本再对其进行测试。。

from superclue.

MysteryMulberry avatar MysteryMulberry commented on June 13, 2024 3

Screenshot_2023-05-09-11-02-02-94_40deb401b9ffe8e1df2f1cc5ba480b12.jpg
这是星火大模型的回答

Screenshot_2023-05-09-10-54-35-85.jpg

Screenshot_2023-05-09-11-01-33-05.jpg
这是gpt4的回答

Screenshot_2023-05-09-11-04-08-25_40deb401b9ffe8e1df2f1cc5ba480b12.jpg
文心一言的回答

我其实还有问了很多别的问题,总的来说 讯飞的模型在问题理解上经常会犯常识性的错误,而且会在回答过程中自己就偏了题(这个效果和gpt2很类似)。此外,讯飞的回答总是十分宽泛,有一种说了也是白说的感jio~
而百度在劫匪问题的回答上,前半截堪称最好,不过后半截扯到了老婆上,,有些好笑。
说实话,试用了几次星火大模型后 已经没了兴趣。ta的能力偏弱,也没有文生图之类的附加能力,隐私政策很不友好,界面还是最丑的。。给我的感觉,ta就是个在开源的llama模型基础上进行的魔改~

from superclue.

IamRoBota avatar IamRoBota commented on June 13, 2024 2

Screenshot_2023-05-09-11-02-02-94_40deb401b9ffe8e1df2f1cc5ba480b12.jpg 这是星火大模型的回答

Screenshot_2023-05-09-10-54-35-85.jpg

Screenshot_2023-05-09-11-01-33-05.jpg 这是gpt4的回答

Screenshot_2023-05-09-11-04-08-25_40deb401b9ffe8e1df2f1cc5ba480b12.jpg 文心一言的回答

我其实还有问了很多别的问题,总的来说 讯飞的模型在问题理解上经常会犯常识性的错误,而且会在回答过程中自己就偏了题(这个效果和gpt2很类似)。此外,讯飞的回答总是十分宽泛,有一种说了也是白说的感jio~ 而百度在劫匪问题的回答上,前半截堪称最好,不过后半截扯到了老婆上,,有些好笑。 说实话,试用了几次星火大模型后 已经没了兴趣。ta的能力偏弱,也没有文生图之类的附加能力,隐私政策很不友好,界面还是最丑的。。给我的感觉,ta就是个在开源的llama模型基础上进行的魔改~

文心这个头戴黑丝是为了防止老婆穿黑丝偷情是真*,,,

from superclue.

Mydtlwn avatar Mydtlwn commented on June 13, 2024 1

确实如此,在一些极具灵活的问题上,星火大模型的回答还不如文心一言,比如让他改掉某一段,保留某一段,经常他就是将答案改了问题的题目,然后将答案原封不动的发一遍,幸亏我不是主管,他不是员工,否则他会被骂死,因为我不是敷衍的领导,让你改,而且给了修改意见,结果转了一圈,什么都没改。你觉得如果是现实中真的不会被炒吗?还有就是星火大模型值得吐槽的一点,给的方案很多都是排比句,但是现实当中的方案,可没有这种字数,格式完全对齐的情况,很多的人都会要求多变性,这种对齐的体验,在现实中的体验似乎是并不好,还有就是过于鱼的记忆的这种毛病,明明已经纠错了,然后当面它改了,然后你根本不需要太长时间,重新问它一遍,那个错误又会原封不动的出现。

from superclue.

chenxiaoyu3 avatar chenxiaoyu3 commented on June 13, 2024

同觉得。为啥不公布所有测试样本?所有模型的输入输出?

from superclue.

brightmart avatar brightmart commented on June 13, 2024

感谢反馈!这里提供了一些有趣的对比

from superclue.

Mydtlwn avatar Mydtlwn commented on June 13, 2024

我觉得应该增加一套错误复原测试,就是纠正错误后的,在短时间内重复一样的问题时的错误复原评分,如果这个错误经常无法纠正,那么就说明他的抗错能力差。不怕在其他方面出错,但是重复在一个错误上跌倒两次这是不允许的,特别是在短时间内重复出现一模一样的错误。

from superclue.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.