大模型翻车”：惊人相近排名引发热议，谁才是真正的第一？

• 发布时间:2024-07-22 04:26:18•浏览次数:183

在《歌手》节目中，孙楠与外国歌手分数的细微差别引发网友争论，争论焦点在于13.8%和13.11%哪个更大。

令人惊讶的是，一些网友给出了错误答案“13.8%大于13.11%”。记者发现，不少大型语言模型也与部分网友一样，对这个四年级知识点感到困惑。

《科创板日报》记者测试了Kimi、智谱清言、通义等大型语言模型应用，它们纷纷“翻车”，而百度文心一言和字节跳动豆包则保住了尊严。

在记者提问后，Kimi回答：“13.11大于13.8。”在记者引导下，包括询问13.11减去13.8的结果为负数的意义，Kimi才给出正确答案。

记者多次询问Kimi 13.11和13.8谁更大，Kimi有时才能回答正确。从错误回答来看，Kimi将13.8误认为13.08，因此得出13.11更大的结果。

记者询问Kimi是否了解湖南卫视《歌手》排名引发的13.11和13.8谁更大的事件，Kimi准确回答并为之前答错道歉。

记者还测试了其他小数点比大小，Kimi的准确率为50%。

在数理逻辑方面，Kimi存在胡说八道的现象。其他大型语言模型是否能准确回答？文心一言和豆包给出了正确答案。

智谱清言犯了与网友相同的位数错误，认为11比8大，因此得出13.11比13.8更大。通义也坚信13.11大于13.8。

值得注意的是，ChatGPT也出现了胡说八道的现象，在为13.8填补了13.80的零位数后才给出正确答案。

这种大型语言模型胡说八道的现象被称为“模型幻觉”。研究表明，幻觉可能源于数据源、训练过程和推理等方面。

大型语言模型可能会过度依赖训练数据中的模式，导致幻觉。它们可能在长尾知识回忆和复杂推理方面存在不足。

业内人士表示，大模型的幻觉率仍然较高，这是影响其颠覆性应用的原因之一。业界正共同解决这一核心问题，让大模型在业务流程中更可控。

拨打服务热线后的评价

超帅先生2024-08-08

维修师傅服务态度很好，快速的解决了问题，维修速度很快很专业

猫~2024-08-08

不知道是因为什么原因，师傅上门来给我检查了，告诉我了是什么原因，什么问题，然后我就让他修了，修理的很好，价格收费什么的也很合理

Maio2024-08-04

师傅服务态度很好，按约定好的时间很准时到了，维修很专业，一会儿功夫就给修好了，现在终于可以正常运作了

唐伍君2024-07-30

师父上门维修特别快，很仔细很认真，工作态度端正，而且其他问题也能帮忙处理没有收其他费用很满意

碧水铃2024-07-30

预约了师傅马上来上门来了，费用还是可以接受的，师傅态度做事不错

硪的醉暧2024-07-28

有专业的技术的人员，都拥有专业的培训，服务质量好，态度满意，价格合理

发***火（匿名2024-07-10

收费合理，师傅上门准时。态度挺好

俊2024-07-01

找了师傅上门，检查后说是线路故障了，换了一下，半个小时就修好了，很专业

是阿雯吖2024-05-08

下单后师傅很快就联系我了，跟师傅电话聊好价格就上门了，换了显示面板、目前没有再继续乱响。

回忆童年2024-04-01

已修好，师傅服务周到，态度很好

查看更多评价 ∨