ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

“聪明但不可信的人”一直是小说(和历史)中的常见角色。而根据 OpenAI 的一项调查,这种相关性或许同样适用于 AI。《纽约时报》报道指出,自 AI 聊天机器人诞生以来,幻觉(即捏造的事实)和彻头彻尾的虚假信息就一直存在。理论上,模型的不断改进应当能够减少这类现象的发生频率。

ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

OpenAI 最新的旗舰模型 GPT o3 和 o4-mini 旨在模仿人类的逻辑推理方式。与早期侧重流畅文本生成的模型不同,GPT o3 和 o4-mini 更注重逐步推理的能力。OpenAI 曾表示,o1 模型在化学、生物和数学领域的表现已经可以媲美甚至超越博士生水平。然而,这份报告也揭示了一个令人警惕的事实:ChatGPT 的回答并不总是值得信赖。

OpenAI 发现,GPT o3 在一项涉及公众人物的基准测试中,有三分之一的回答出现了幻觉——这是去年 o1 模型错误率的两倍。而更小型的 o4-mini 表现更差,类似任务中的幻觉率高达 48%。在面向通识知识的 SimpleQA 基准测试中,GPT o3 的幻觉率上升到 51%,而 o4-mini 更是高达 79%。这不仅仅是些“小错误”,而是接近“认知崩溃”的水平。人们本希望这种被宣传为“推理系统”的模型,至少能在回答前自我检查其逻辑,但现实并非如此。

AI 研究界有一种正在流行的理论认为,模型推理得越多,出错的机会也越多。与那些只进行高置信度预测的简单模型相比,这些更复杂的模型需要评估多种可能路径、连接分散信息,甚至进行“即兴发挥”。而围绕事实的即兴发挥,本质上就是编造内容。

虚构式运作

当然,相关性不等于因果关系。OpenAI 告诉《纽约时报》,幻觉增多的原因未必是因为推理模型本身更糟,而可能仅仅是它们在表达上更冗长、更富探索性。由于新模型不仅是在重复可预测的事实,还会对“可能性”进行推测,因此理论与虚构之间的界限就容易变得模糊。不幸的是,这些“可能性”有时候完全脱离了现实。

然而,幻觉增多显然不是 OpenAI 或其竞争对手(如 Google 和 Anthropic)希望看到的结果。将 AI 聊天机器人称为“助手”或“副驾驶”意味着它们应当是有帮助的,而非充满风险的。现实中,已有律师因引用 ChatGPT 编造的虚假判例而惹上麻烦——而在更多不那么关键的场景下,又有多少类似错误已造成了隐患呢?

TechRadar的头像TechRadar认证作者

相关推荐

  • 西部数据计划明年推出 40TB 硬盘,采用 HAMR 技术并融合闪存技术

    西部数据(Western Digital)近日举行了一场投资者大会,主要聚焦其未来十年内如何大幅提升硬盘存储容量的战略规划。 WD 展示了一条清晰的技术发展路线图,从能量辅助垂直磁记录(ePMR)过渡到热辅助磁记录(HAMR),最终迈向热点磁记录(HDMR),目标是在未来实现超过 100TB 的硬盘容量。 根据西部数据的规划,到 2026 年,其硬盘容量将通…

    2025年4月24日
    743
  • 微软最新的劝说用户升级到 Windows 11 的尝试彻底失败

    如果你还没注意到(不太可能),微软希望 Windows 10 用户升级到 Windows 11 ——如果可能的话,而且他们的电脑符合新操作系统的规格要求——我们刚刚发现微软又推出了一个促使人们做出这个升级决定的新尝试。 这是微软“学习中心”门户上的一篇新文章,标题为《 7 个提示,帮助你充分发挥 Windows 11 的优势》,旨在劝说仍在使用 Window…

    2025年4月11日
    519
  • Android 16首个开发者预览版发布:有哪些新功能?

    谷歌正式发布了Android 16的首个开发者预览版,标志着其在加速Android设备操作系统更新方面的一项大胆新举措。我们已经详细探索了Android 16 DP1,以下是即将发布的下一个重大版本中的一些亮点功能。 Android 16何时发布? 根据谷歌的说法,首个开发者预览版标志着Android 16推出的起点,第二个开发者预览版定于12月发布。 第一…

    2024年11月28日
    575
  • 来到Google Photos:用于识别编辑和生成图像的AI标签

    谷歌不仅推出了一系列人工智能功能,而且还注重负责任地使用人工智能。作为该计划的一部分,该公司正在Google Photos中推出一项新功能,可以为人工智能编辑的图像添加标签。此添加将帮助用户更好地区分未触及的内容和已操纵的内容。 该功能于本月早些时候首次被发现。现在,谷歌宣布将于下周开始正式发布更新,同时支持Android和iOS设备。 Google Pho…

    2024年10月29日
    628
  • 随着越来越多的 Google Pixel Buds 2a 泄露消息浮出水面,我们既有好消息,也有坏消息……

    距离上一次关于 Google Pixel Buds 2a 的泄露已经过去几天了,现在又到了迎来新爆料的时候—— Evan Blass 很乐意帮忙。他在 X 上发布了一份泄露的规格表,补充了之前泄露信息中的一些空白。 这份规格表还有一个实用之处:它展示了这款更实惠的耳机与当前的 Google Pixel Buds Pro 2 之间的对比。 Google Pix…

    2025年8月11日
    498

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注