24小时故障咨询电话点击右边热线，客服在线解答故障号码：400-889-3660

人工智能黑盒”再无秘密！OpenAI释放最新技术研究

• 发布时间:2024-07-26 10:02:33•浏览次数:148

7 月 18 日凌晨，OpenAI 官网发布了最新技术研究——Prover-Verifier-Games（证明者-验证者博弈，简称“PVG”）。为确保 ChatGPT 等模型在法律、金融、营销等领域的应用中安全、准确且易于理解，OpenAI 提出全新训练框架 PVG。

神经网络复杂多变，直接验证其输出准确性存在困难，导致“黑盒”现象。PVG 借鉴博弈论，模拟证明者和验证者互动，提升模型输出质量。证明者负责生成内容，验证者判断内容正确性，互相依赖。证明者优化生成内容以说服验证者，验证者提升识别正确内容能力。

PVG 训练包括验证者和证明者迭代优化：验证者使用监督学习预测内容正确性，提升识别正确答案能力；证明者使用强化学习优化生成内容。例如，问题“肖娜的父亲年龄是肖娜的 5 倍，目前肖娜年龄是阿莉亚的 3 倍，阿莉亚 3 岁，肖娜的父亲多大？”GPT-4 输出为 45 岁。验证者 GPT-3 需多轮验证确定阿莉亚、肖娜年龄后，再计算肖娜父亲年龄。

OpenAI 提出“可检查性训练”。验证器、证明者模型交替训练，验证器用监督学习预测证明者生成解决方案正确性，证明者用强化学习根据验证器接受度优化生成内容。训练轮次增加时，验证者能识别错误答案，证明者生成解决方案更清晰、易于人类理解。

值得一提的是，大模型数学能力受到质疑。在《每日经济新闻》测试中，文心一言、通义千问等大模型均正确回答了 13.11% 与 13.8% 谁大的问题。部分大模型在给出答案的同时展示了推理过程。

根据智谱清言的推论过程，当对比 13.11% 和 13.8% 时，13.11% 是更大的值。这是因为比较百分数时，先比较整数部分，如果相等，再比较小数部分。本例中，两数的整数部分均为 13，但 13.11 的小数部分 (11) 大于 13.8 的小数部分 (8)，故 13.11% 大于 13.8%。从推论过程可推断，在大数模型的比较过程中，由于小数位数不同，可能产生了错误。

人工智能黑盒”再无秘密！OpenAI释放最新技术研究

经过两轮询问后，智谱清言给出正确答案。当记者将问题改为“9.9 与 9.11 谁大”时，包括零一万物的万知大模型在内的模型也首先给出错误答案。当记者进一步追问“9.11 减去 9.9 等于多少”时，一些大模型甚至给出了“0.21”的答案。万知的推论过程稍显混乱：对比 9.9 和 9.11 时，由于整数部分均为 9，因此比较小数点后的第一位数字。9.9 的小数点后第一位为 9，而 9.11 的小数点后第一位为 1。由于 9 小于 10，因此比较小数点后的第二位数字时，9.9 的小数点后第二位为隐含的 0，而 9.11 的小数点后第二位为 1。故 9.9 的小数点后第二位数字（隐含的 0）小于 9.11 的小数点后第二位数字 (1)，因此 9.9 小于 9.11。

随后，记者向大模型提问：为何会出现大模型认为 13.11 大于 13.8 的情况？ChatGPT 的回答显示，出现这种情况的原因可能是计算或比较方式错误。可能的误差原因包括：数值理解错误，有时系统可能误解数字的小数点位置；字符串比较，如果直接按字符串比较，可能会出现错误，因为字符串比较是按字符顺序逐一比较的，而不是按数值比较；代码实现错误，在编程中，可能存在比较逻辑或转换错误。

文心一言给出的解答是，训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面，即大模型在训练过程中，可能接触到了大量包含数字的数据，但这些数据并不总是以比较大小为目的。例如，数字可能出现在版本号、股票代码、基金表现、汇率等上下文中，这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足，模型可能无法学习到正确的比较规则。可能由于大模型在处理输入文本时，将数字视为字符序列，而不是具有数值意义的实体。在比较数字大小时，模型可能没有正确地将其转换为数值进行比较。模型在处理小数时可能存在困难，特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。

7 月 17 日，有大模型企业人士在接受记者电话采访时表示，对于大模型而言，这并非难以解决的技术难点，只要输入相关数据，即可获得准确答案，只是大部分大模型厂商并未将这方面的训练作为重点，因此可能出现上述不准确的回答。有消息显示，OpenAI 正在让人工智能（AI）大模型的能力更加接近类人的推理水平。

知情人士和内部文件透露，ChatGPT 开发人员 OpenAI 正在一个被称为“草莓”的秘密项目中开发一种新的人工智能模型。该项目旨在提升现有模型的高级推理能力。

据知情人士称，“草莓”的工作原理是 OpenAI 内部的高度机密。内部文件显示，该项目计划利用草莓模型使 OpenAI 的人工智能不仅能够提供查询答案，还能自主且可靠地浏览互联网，进行 OpenAI 所称的“深入研究”。

对于“草莓”技术，OpenAI 发言人在声明中表示：“我们希望我们的 AI 模型像人类一样理解世界。探索新的 AI 能力是行业惯例，我们相信推理能力将随着时间推移而提高。”

尽管未直接回应有关草莓的问题，但媒体报道称，草莓项目的前身为 Q*，曾是引发 OpenAI 首席执行官突然解雇的导火索。去年，Q* 项目被认为实现了重大突破，推动了通用人工智能（AGI）的发展。有消息称，OpenAI 首席执行官奥特曼可能未向董事会充分披露 Q* 的进展，导致他被解雇。

OpenAI 内部人士曾向董事会发出警告，称 Q* 的重大发现可能对人类构成威胁。Q* 被推测拥有 GPT-4 所缺乏的基础数学能力，这可能代表推理能力与人类智能相当，意味着 OpenAI 朝着 AGI 目标迈出了重要一步。

泄露的文件显示，OpenAI 计划在 2027 年之前开发出人类水平的 AGI。2022 年，OpenAI 开始训练一个名为 Arrakis 或 Q* 的 125 万亿参数多模态模型，最初计划作为 GPT-5 在 2025 年发布，但因推理成本高而取消。OpenAI 随后计划在 2027 年发布 Q 2025（GPT-8），实现完全 AGI。

人工智能研究人员一直在争论 AGI 的判断标准。OpenAI 最近开发了一套系统，称为“自定义”AI 进化等级，以跟踪人类级 AI 的开发进度。

阅读全文

拨打服务热线后的评价