• 发布时间:2024-07-26 10:02:33•浏览次数:137
7 月 18 日凌晨,OpenAI 官网发布了最新技术研究——Prover-Verifier-Games(证明者-验证者博弈,简称“PVG”)。为确保 ChatGPT 等模型在法律、金融、营销等领域的应用中安全、准确且易于理解,OpenAI 提出全新训练框架 PVG。
神经网络复杂多变,直接验证其输出准确性存在困难,导致“黑盒”现象。PVG 借鉴博弈论,模拟证明者和验证者互动,提升模型输出质量。证明者负责生成内容,验证者判断内容正确性,互相依赖。证明者优化生成内容以说服验证者,验证者提升识别正确内容能力。
PVG 训练包括验证者和证明者迭代优化:验证者使用监督学习预测内容正确性,提升识别正确答案能力;证明者使用强化学习优化生成内容。例如,问题“肖娜的父亲年龄是肖娜的 5 倍,目前肖娜年龄是阿莉亚的 3 倍,阿莉亚 3 岁,肖娜的父亲多大?”GPT-4 输出为 45 岁。验证者 GPT-3 需多轮验证确定阿莉亚、肖娜年龄后,再计算肖娜父亲年龄。
OpenAI 提出“可检查性训练”。验证器、证明者模型交替训练,验证器用监督学习预测证明者生成解决方案正确性,证明者用强化学习根据验证器接受度优化生成内容。训练轮次增加时,验证者能识别错误答案,证明者生成解决方案更清晰、易于人类理解。
值得一提的是,大模型数学能力受到质疑。在《每日经济新闻》测试中,文心一言、通义千问等大模型均正确回答了 13.11% 与 13.8% 谁大的问题。部分大模型在给出答案的同时展示了推理过程。
根据智谱清言的推论过程,当对比 13.11% 和 13.8% 时,13.11% 是更大的值。这是因为比较百分数时,先比较整数部分,如果相等,再比较小数部分。本例中,两数的整数部分均为 13,但 13.11 的小数部分 (11) 大于 13.8 的小数部分 (8),故 13.11% 大于 13.8%。从推论过程可推断,在大数模型的比较过程中,由于小数位数不同,可能产生了错误。
经过两轮询问后,智谱清言给出正确答案。当记者将问题改为“9.9 与 9.11 谁大”时,包括零一万物的万知大模型在内的模型也首先给出错误答案。当记者进一步追问“9.11 减去 9.9 等于多少”时,一些大模型甚至给出了“0.21”的答案。万知的推论过程稍显混乱:对比 9.9 和 9.11 时,由于整数部分均为 9,因此比较小数点后的第一位数字。9.9 的小数点后第一位为 9,而 9.11 的小数点后第一位为 1。由于 9 小于 10,因此比较小数点后的第二位数字时,9.9 的小数点后第二位为隐含的 0,而 9.11 的小数点后第二位为 1。故 9.9 的小数点后第二位数字(隐含的 0)小于 9.11 的小数点后第二位数字 (1),因此 9.9 小于 9.11。
随后,记者向大模型提问:为何会出现大模型认为 13.11 大于 13.8 的情况?ChatGPT 的回答显示,出现这种情况的原因可能是计算或比较方式错误。可能的误差原因包括:数值理解错误,有时系统可能误解数字的小数点位置;字符串比较,如果直接按字符串比较,可能会出现错误,因为字符串比较是按字符顺序逐一比较的,而不是按数值比较;代码实现错误,在编程中,可能存在比较逻辑或转换错误。
文心一言给出的解答是,训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面,即大模型在训练过程中,可能接触到了大量包含数字的数据,但这些数据并不总是以比较大小为目的。例如,数字可能出现在版本号、股票代码、基金表现、汇率等上下文中,这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足,模型可能无法学习到正确的比较规则。可能由于大模型在处理输入文本时,将数字视为字符序列,而不是具有数值意义的实体。在比较数字大小时,模型可能没有正确地将其转换为数值进行比较。模型在处理小数时可能存在困难,特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。
7 月 17 日,有大模型企业人士在接受记者电话采访时表示,对于大模型而言,这并非难以解决的技术难点,只要输入相关数据,即可获得准确答案,只是大部分大模型厂商并未将这方面的训练作为重点,因此可能出现上述不准确的回答。有消息显示,OpenAI 正在让人工智能(AI)大模型的能力更加接近类人的推理水平。
知情人士和内部文件透露,ChatGPT 开发人员 OpenAI 正在一个被称为“草莓”的秘密项目中开发一种新的人工智能模型。该项目旨在提升现有模型的高级推理能力。
据知情人士称,“草莓”的工作原理是 OpenAI 内部的高度机密。内部文件显示,该项目计划利用草莓模型使 OpenAI 的人工智能不仅能够提供查询答案,还能自主且可靠地浏览互联网,进行 OpenAI 所称的“深入研究”。
对于“草莓”技术,OpenAI 发言人在声明中表示:“我们希望我们的 AI 模型像人类一样理解世界。探索新的 AI 能力是行业惯例,我们相信推理能力将随着时间推移而提高。”
尽管未直接回应有关草莓的问题,但媒体报道称,草莓项目的前身为 Q*,曾是引发 OpenAI 首席执行官突然解雇的导火索。去年,Q* 项目被认为实现了重大突破,推动了通用人工智能(AGI)的发展。有消息称,OpenAI 首席执行官奥特曼可能未向董事会充分披露 Q* 的进展,导致他被解雇。
OpenAI 内部人士曾向董事会发出警告,称 Q* 的重大发现可能对人类构成威胁。Q* 被推测拥有 GPT-4 所缺乏的基础数学能力,这可能代表推理能力与人类智能相当,意味着 OpenAI 朝着 AGI 目标迈出了重要一步。
泄露的文件显示,OpenAI 计划在 2027 年之前开发出人类水平的 AGI。2022 年,OpenAI 开始训练一个名为 Arrakis 或 Q* 的 125 万亿参数多模态模型,最初计划作为 GPT-5 在 2025 年发布,但因推理成本高而取消。OpenAI 随后计划在 2027 年发布 Q 2025(GPT-8),实现完全 AGI。
人工智能研究人员一直在争论 AGI 的判断标准。OpenAI 最近开发了一套系统,称为“自定义”AI 进化等级,以跟踪人类级 AI 的开发进度。
维修师傅服务态度很好,快速的解决了问题,维修速度很快很专业
不知道是因为什么原因,师傅上门来给我检查了,告诉我了是什么原因,什么问题,然后我就让他修了,修理的很好,价格收费什么的也很合理
师傅服务态度很好,按约定好的时间很准时到了,维修很专业,一会儿功夫就给修好了,现在终于可以正常运作了
师父上门维修特别快,很仔细很认真,工作态度端正,而且其他问题也能帮忙处理没有收其他费用很满意
预约了师傅马上来上门来了,费用还是可以接受的,师傅态度做事不错
有专业的技术的人员,都拥有专业的培训,服务质量好,态度满意,价格合理
收费合理,师傅上门准时。态度挺好
找了师傅上门,检查后说是线路故障了,换了一下,半个小时就修好了,很专业
下单后师傅很快就联系我了,跟师傅电话聊好价格就上门了,换了显示面板、目前没有再继续乱响。
已修好,师傅服务周到,态度很好