ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

“聪明但不可信的人”一直是小说(和历史)中的常见角色。而根据 OpenAI 的一项调查,这种相关性或许同样适用于 AI。《纽约时报》报道指出,自 AI 聊天机器人诞生以来,幻觉(即捏造的事实)和彻头彻尾的虚假信息就一直存在。理论上,模型的不断改进应当能够减少这类现象的发生频率。

ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

OpenAI 最新的旗舰模型 GPT o3 和 o4-mini 旨在模仿人类的逻辑推理方式。与早期侧重流畅文本生成的模型不同,GPT o3 和 o4-mini 更注重逐步推理的能力。OpenAI 曾表示,o1 模型在化学、生物和数学领域的表现已经可以媲美甚至超越博士生水平。然而,这份报告也揭示了一个令人警惕的事实:ChatGPT 的回答并不总是值得信赖。

OpenAI 发现,GPT o3 在一项涉及公众人物的基准测试中,有三分之一的回答出现了幻觉——这是去年 o1 模型错误率的两倍。而更小型的 o4-mini 表现更差,类似任务中的幻觉率高达 48%。在面向通识知识的 SimpleQA 基准测试中,GPT o3 的幻觉率上升到 51%,而 o4-mini 更是高达 79%。这不仅仅是些“小错误”,而是接近“认知崩溃”的水平。人们本希望这种被宣传为“推理系统”的模型,至少能在回答前自我检查其逻辑,但现实并非如此。

AI 研究界有一种正在流行的理论认为,模型推理得越多,出错的机会也越多。与那些只进行高置信度预测的简单模型相比,这些更复杂的模型需要评估多种可能路径、连接分散信息,甚至进行“即兴发挥”。而围绕事实的即兴发挥,本质上就是编造内容。

虚构式运作

当然,相关性不等于因果关系。OpenAI 告诉《纽约时报》,幻觉增多的原因未必是因为推理模型本身更糟,而可能仅仅是它们在表达上更冗长、更富探索性。由于新模型不仅是在重复可预测的事实,还会对“可能性”进行推测,因此理论与虚构之间的界限就容易变得模糊。不幸的是,这些“可能性”有时候完全脱离了现实。

然而,幻觉增多显然不是 OpenAI 或其竞争对手(如 Google 和 Anthropic)希望看到的结果。将 AI 聊天机器人称为“助手”或“副驾驶”意味着它们应当是有帮助的,而非充满风险的。现实中,已有律师因引用 ChatGPT 编造的虚假判例而惹上麻烦——而在更多不那么关键的场景下,又有多少类似错误已造成了隐患呢?

TechRadar的头像TechRadar认证作者

相关推荐

  • ChatGPT 通过突破图灵测试,迈出了人工智能的新门槛。

    人工智能对许多人来说听起来很像人类,但通常你可以很快分辨出自己是否在与 AI 模型互动。然而,这种情况可能会发生变化,因为 OpenAI 的新 GPT-4.5 模型通过让人们在五分钟的对话中误以为它是人类,成功通过了图灵测试。并不是只有少数人,而是 73% 的加利福尼亚大学圣地亚哥分校研究参与者。 事实上,GPT-4.5 的表现超越了一些真正的人类参与者,这…

    2025年4月23日
    655
  • 小米 SU7 Ultra明日发表,高达1,548匹马力100公里加速仅2秒

    在3月正式上市的小米 SU7电动车取得成功后,小米将会再下一城。在明日举行的小米15系列手机发佈会上,小米预告将会同场发表小米 SU7 Ultra电动车。以高性能大马力作為卖点之一的SU7 Ultra,小米在今年 7 月展示了其概念车的设计,其后亦委托赛车公司改装,然后在德国纽布灵北高调试车。 小米在7月展示SU7 Ultra概念车后,随即确认会将这款拥有1…

    2024年10月28日
    577
  • 摩托罗拉新款智能手表以大屏幕和实惠的价格亮相

    在发布 Motorola Edge(2025)手机的同时,该公司还推出了 Moto Watch Fit 智能手表。虽然具备智能手表功能,但整体更偏向于健身追踪器。它放弃了谷歌的 Wear OS 系统,转而使用定制的 RTOS 系统,但拥有大尺寸显示屏和超长续航。该可穿戴设备定价具有竞争力,预计将于五月在部分市场上市。 设计融合了 Apple Watch Se…

    2025年4月28日
    749
  • One UI 7测试版已上线:新功能和兼容设备介绍

    三星Galaxy粉丝们欢呼吧!One UI 7测试版计划终于上线了。这款基于Android 15的三星移动操作系统预计将于2025年初正式发布。从今天开始,Galaxy S24 Ultra用户可以加入测试版计划。以下是如何测试新功能以及未来Galaxy设备可能有哪些期待。 One UI 7测试版计划:可用性及下载方式 三星德国已确认,One UI 7测试版计…

    2024年12月6日
    1.5K
  • DJI Mini 5 Pro 泄露揭示潜在规格和设计,但一个重大问题仍未解答

    DJI Mini 5 Pro 似乎不太可能按之前传闻的8月7日发布,但微型无人机爱好者至少从两次重大泄露中获得了一些安慰——这些信息暗示这款小巧的飞行摄像机值得再多等一等。 首先,一张疑似全球顶级无人机之一继任者的渲染图在 Drone-Hacks 的 Discord 频道曝光,可能让我们首次见到了这款无人机的真容。 如果图像属实,Mini 5 Pro 外观将…

    2025年8月5日
    501

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注