我个人使用后的感受，星火大模型是真的不如文心一言。。 about superclue HOT 8 OPEN

MysteryMulberry commented on June 13, 2024 1

我个人使用后的感受，星火大模型是真的不如文心一言。。

from superclue.

Comments (8)

306416836 commented on June 13, 2024 10

我觉着这个榜单是纯粹是为了抬星火

from superclue.

MysteryMulberry commented on June 13, 2024 7

星火似乎对某些常问的问题提前设定好了，举个例子问它一棵树上有10只鸟打死一只还有几只它能答的不错，而把10换成114514就开始胡言乱语了。
我们也有对清华的 ChatGLM 模型做过测试。目前开源的模型采用的是 6B 参数版本，该模型甚至无法理解选择题这种出题形式，无法正常给出选择结果，几乎无法完成评测试题内容。。等后续出了 120B 版本再对其进行测试。。

from superclue.

MysteryMulberry commented on June 13, 2024 3

这是星火大模型的回答

这是gpt4的回答

文心一言的回答

我其实还有问了很多别的问题，总的来说讯飞的模型在问题理解上经常会犯常识性的错误，而且会在回答过程中自己就偏了题（这个效果和gpt2很类似）。此外，讯飞的回答总是十分宽泛，有一种说了也是白说的感jio~
而百度在劫匪问题的回答上，前半截堪称最好，不过后半截扯到了老婆上，，有些好笑。
说实话，试用了几次星火大模型后已经没了兴趣。ta的能力偏弱，也没有文生图之类的附加能力，隐私政策很不友好，界面还是最丑的。。给我的感觉，ta就是个在开源的llama模型基础上进行的魔改~

from superclue.

IamRoBota commented on June 13, 2024 2

这是星火大模型的回答

这是gpt4的回答

文心一言的回答

我其实还有问了很多别的问题，总的来说讯飞的模型在问题理解上经常会犯常识性的错误，而且会在回答过程中自己就偏了题（这个效果和gpt2很类似）。此外，讯飞的回答总是十分宽泛，有一种说了也是白说的感jio~ 而百度在劫匪问题的回答上，前半截堪称最好，不过后半截扯到了老婆上，，有些好笑。说实话，试用了几次星火大模型后已经没了兴趣。ta的能力偏弱，也没有文生图之类的附加能力，隐私政策很不友好，界面还是最丑的。。给我的感觉，ta就是个在开源的llama模型基础上进行的魔改~

文心这个头戴黑丝是为了防止老婆穿黑丝偷情是真*，，，

from superclue.

Mydtlwn commented on June 13, 2024 1

确实如此，在一些极具灵活的问题上，星火大模型的回答还不如文心一言，比如让他改掉某一段，保留某一段，经常他就是将答案改了问题的题目，然后将答案原封不动的发一遍，幸亏我不是主管，他不是员工，否则他会被骂死，因为我不是敷衍的领导，让你改，而且给了修改意见，结果转了一圈，什么都没改。你觉得如果是现实中真的不会被炒吗？还有就是星火大模型值得吐槽的一点，给的方案很多都是排比句，但是现实当中的方案，可没有这种字数，格式完全对齐的情况，很多的人都会要求多变性，这种对齐的体验，在现实中的体验似乎是并不好，还有就是过于鱼的记忆的这种毛病，明明已经纠错了，然后当面它改了，然后你根本不需要太长时间，重新问它一遍，那个错误又会原封不动的出现。

from superclue.

chenxiaoyu3 commented on June 13, 2024

同觉得。为啥不公布所有测试样本？所有模型的输入输出？

from superclue.

brightmart commented on June 13, 2024

感谢反馈！这里提供了一些有趣的对比

from superclue.

Mydtlwn commented on June 13, 2024

我觉得应该增加一套错误复原测试，就是纠正错误后的，在短时间内重复一样的问题时的错误复原评分，如果这个错误经常无法纠正，那么就说明他的抗错能力差。不怕在其他方面出错，但是重复在一个错误上跌倒两次这是不允许的，特别是在短时间内重复出现一模一样的错误。

from superclue.

我个人使用后的感受，星火大模型是真的不如文心一言。。 about superclue HOT 8 OPEN

Comments (8)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent