24小时故障咨询电话点击右边热线,客服在线解答故障号码:400-889-3660
大模型翻车”:惊人相近排名引发热议,谁才是真正的第一?

大模型翻车”:惊人相近排名引发热议,谁才是真正的第一?

发布时间:2024-07-22 04:26:18•浏览次数:175

在《歌手》节目中,孙楠与外国歌手分数的细微差别引发网友争论,争论焦点在于13.8%和13.11%哪个更大。

令人惊讶的是,一些网友给出了错误答案“13.8%大于13.11%”。记者发现,不少大型语言模型也与部分网友一样,对这个四年级知识点感到困惑。

《科创板日报》记者测试了Kimi、智谱清言、通义等大型语言模型应用,它们纷纷“翻车”,而百度文心一言和字节跳动豆包则保住了尊严。

在记者提问后,Kimi回答:“13.11大于13.8。”在记者引导下,包括询问13.11减去13.8的结果为负数的意义,Kimi才给出正确答案。

记者多次询问Kimi 13.11和13.8谁更大,Kimi有时才能回答正确。从错误回答来看,Kimi将13.8误认为13.08,因此得出13.11更大的结果。

记者询问Kimi是否了解湖南卫视《歌手》排名引发的13.11和13.8谁更大的事件,Kimi准确回答并为之前答错道歉。

记者还测试了其他小数点比大小,Kimi的准确率为50%。

在数理逻辑方面,Kimi存在胡说八道的现象。其他大型语言模型是否能准确回答?文心一言和豆包给出了正确答案。

智谱清言犯了与网友相同的位数错误,认为11比8大,因此得出13.11比13.8更大。通义也坚信13.11大于13.8。

值得注意的是,ChatGPT也出现了胡说八道的现象,在为13.8填补了13.80的零位数后才给出正确答案。

这种大型语言模型胡说八道的现象被称为“模型幻觉”。研究表明,幻觉可能源于数据源、训练过程和推理等方面。

大型语言模型可能会过度依赖训练数据中的模式,导致幻觉。它们可能在长尾知识回忆和复杂推理方面存在不足。

业内人士表示,大模型的幻觉率仍然较高,这是影响其颠覆性应用的原因之一。业界正共同解决这一核心问题,让大模型在业务流程中更可控。

拨打服务热线后的评价
超帅先生2024-08-08

维修师傅服务态度很好,快速的解决了问题,维修速度很快很专业

猫~2024-08-08

不知道是因为什么原因,师傅上门来给我检查了,告诉我了是什么原因,什么问题,然后我就让他修了,修理的很好,价格收费什么的也很合理

Maio2024-08-04

师傅服务态度很好,按约定好的时间很准时到了,维修很专业,一会儿功夫就给修好了,现在终于可以正常运作了

唐伍君2024-07-30

师父上门维修特别快,很仔细很认真,工作态度端正,而且其他问题也能帮忙处理没有收其他费用很满意

碧水铃2024-07-30

预约了师傅马上来上门来了,费用还是可以接受的,师傅态度做事不错

硪的醉暧2024-07-28

有专业的技术的人员,都拥有专业的培训,服务质量好,态度满意,价格合理

发***火(匿名2024-07-10

收费合理,师傅上门准时。态度挺好

2024-07-01

找了师傅上门,检查后说是线路故障了,换了一下,半个小时就修好了,很专业

是阿雯吖2024-05-08

下单后师傅很快就联系我了,跟师傅电话聊好价格就上门了,换了显示面板、目前没有再继续乱响。

回忆童年2024-04-01

已修好,师傅服务周到,态度很好

查看更多评价 ∨
电话
预约报修
维修电话