ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

“聪明但不可信的人”一直是小说(和历史)中的常见角色。而根据 OpenAI 的一项调查,这种相关性或许同样适用于 AI。《纽约时报》报道指出,自 AI 聊天机器人诞生以来,幻觉(即捏造的事实)和彻头彻尾的虚假信息就一直存在。理论上,模型的不断改进应当能够减少这类现象的发生频率。

ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

OpenAI 最新的旗舰模型 GPT o3 和 o4-mini 旨在模仿人类的逻辑推理方式。与早期侧重流畅文本生成的模型不同,GPT o3 和 o4-mini 更注重逐步推理的能力。OpenAI 曾表示,o1 模型在化学、生物和数学领域的表现已经可以媲美甚至超越博士生水平。然而,这份报告也揭示了一个令人警惕的事实:ChatGPT 的回答并不总是值得信赖。

OpenAI 发现,GPT o3 在一项涉及公众人物的基准测试中,有三分之一的回答出现了幻觉——这是去年 o1 模型错误率的两倍。而更小型的 o4-mini 表现更差,类似任务中的幻觉率高达 48%。在面向通识知识的 SimpleQA 基准测试中,GPT o3 的幻觉率上升到 51%,而 o4-mini 更是高达 79%。这不仅仅是些“小错误”,而是接近“认知崩溃”的水平。人们本希望这种被宣传为“推理系统”的模型,至少能在回答前自我检查其逻辑,但现实并非如此。

AI 研究界有一种正在流行的理论认为,模型推理得越多,出错的机会也越多。与那些只进行高置信度预测的简单模型相比,这些更复杂的模型需要评估多种可能路径、连接分散信息,甚至进行“即兴发挥”。而围绕事实的即兴发挥,本质上就是编造内容。

虚构式运作

当然,相关性不等于因果关系。OpenAI 告诉《纽约时报》,幻觉增多的原因未必是因为推理模型本身更糟,而可能仅仅是它们在表达上更冗长、更富探索性。由于新模型不仅是在重复可预测的事实,还会对“可能性”进行推测,因此理论与虚构之间的界限就容易变得模糊。不幸的是,这些“可能性”有时候完全脱离了现实。

然而,幻觉增多显然不是 OpenAI 或其竞争对手(如 Google 和 Anthropic)希望看到的结果。将 AI 聊天机器人称为“助手”或“副驾驶”意味着它们应当是有帮助的,而非充满风险的。现实中,已有律师因引用 ChatGPT 编造的虚假判例而惹上麻烦——而在更多不那么关键的场景下,又有多少类似错误已造成了隐患呢?

TechRadar的头像TechRadar认证作者

相关推荐

  • LG 将停止其手机的更新服务

    LG 四年前宣布退出智能手机市场,但承诺会在接下来的几年内继续更新其手机。现在,这家韩国品牌已为其手机的服务器更新设定了最后期限。如果你拥有 LG Wing、Velvet 或其他型号手机,是时候在它们从互联网上消失之前安装最后的更新了。 这一停服消息几乎是在该公司宣布退出智能手机市场四年后发布的,原因是多年的亏损和一系列在外形设计和功能上的失败尝试,包括“模…

    2025年5月1日
    519
  • GPT-5 已发布 —— 关于 OpenAI “最实用”模型的五件事,你需要知道的内容

    OpenAI 备受期待的 GPT‑5 发布会直播在约一个半小时的时间里,密集地展示了大量的公告与演示内容。CEO Sam Altman 并没有表现出他此前所声称的对新一代 AI 模型的担忧,反而更多地是对自己与团队成就的自豪。 发布会的大部分内容都聚焦于 GPT-5 在技术上的里程碑突破,以及这些进展如何转化为对用户而言更强大、升级后的 AI 功能。此外,A…

    2025年8月8日
    374
  • 3000亿且持续增长:全球最受欢迎的芯片设计公司迎来40周年,所有的一切始于一间木制谷仓

    1985年4月,英国剑桥的 Acorn Computers 公司小团队着手重新思考处理器的概念。工程师 Sophie Wilson 和 Steve Furber 开发了 ARM1(最初代表 Advanced RISC Machines),这是一款看似普通、只有 25,000 个晶体管的芯片,旨在为 BBC Micro 提供动力,打造了一款强调简化指令集以实现…

    2025年4月26日
    569
  • 这个功能让 Nothing Headphone (1)独一无二

    Nothing 于 7 月 1 日星期二推出了其首款无线耳机——Nothing Headphone (1)。这款蓝牙耳机的外观非常奇特,确实让人对它的存在产生疑问。不过,对 Nothing Headphone (1)来说,最有趣的并不是它的外观,而是那个著名的“按钮”,而且还是一个实体按钮,这才是 Nothing Headphone (1)最大的卖点。这个按…

    2025年7月3日
    444
  • Google Messages 新功能或将彻底终结垃圾短信

    谷歌持续改进 Android 系统,推出更多工具以打击垃圾信息和诈骗行为,尤其是在其默认的短信应用中。通过最新更新,Google Messages(谷歌短信)引入了一个更加简洁的“退订”功能,让用户能更好地掌控广播广告和不需要的消息。 从“停止”到“退订”:更精细的工具 去年,有用户发现谷歌在短信应用中测试一个“停止”按钮,帮助用户快速取消订阅促销或垃圾短信…

    2025年4月9日
    762

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注