ChatGPT 正变得越来越聪明，但它的幻觉也在 spiraling（失控）

TechRadar • 2025年5月7日 16:47 • 科技

“聪明但不可信的人”一直是小说（和历史）中的常见角色。而根据 OpenAI 的一项调查，这种相关性或许同样适用于 AI。《纽约时报》报道指出，自 AI 聊天机器人诞生以来，幻觉（即捏造的事实）和彻头彻尾的虚假信息就一直存在。理论上，模型的不断改进应当能够减少这类现象的发生频率。

OpenAI 最新的旗舰模型 GPT o3 和 o4-mini 旨在模仿人类的逻辑推理方式。与早期侧重流畅文本生成的模型不同，GPT o3 和 o4-mini 更注重逐步推理的能力。OpenAI 曾表示，o1 模型在化学、生物和数学领域的表现已经可以媲美甚至超越博士生水平。然而，这份报告也揭示了一个令人警惕的事实：ChatGPT 的回答并不总是值得信赖。

OpenAI 发现，GPT o3 在一项涉及公众人物的基准测试中，有三分之一的回答出现了幻觉——这是去年 o1 模型错误率的两倍。而更小型的 o4-mini 表现更差，类似任务中的幻觉率高达 48%。在面向通识知识的 SimpleQA 基准测试中，GPT o3 的幻觉率上升到 51%，而 o4-mini 更是高达 79%。这不仅仅是些“小错误”，而是接近“认知崩溃”的水平。人们本希望这种被宣传为“推理系统”的模型，至少能在回答前自我检查其逻辑，但现实并非如此。

AI 研究界有一种正在流行的理论认为，模型推理得越多，出错的机会也越多。与那些只进行高置信度预测的简单模型相比，这些更复杂的模型需要评估多种可能路径、连接分散信息，甚至进行“即兴发挥”。而围绕事实的即兴发挥，本质上就是编造内容。

虚构式运作

当然，相关性不等于因果关系。OpenAI 告诉《纽约时报》，幻觉增多的原因未必是因为推理模型本身更糟，而可能仅仅是它们在表达上更冗长、更富探索性。由于新模型不仅是在重复可预测的事实，还会对“可能性”进行推测，因此理论与虚构之间的界限就容易变得模糊。不幸的是，这些“可能性”有时候完全脱离了现实。

然而，幻觉增多显然不是 OpenAI 或其竞争对手（如 Google 和 Anthropic）希望看到的结果。将 AI 聊天机器人称为“助手”或“副驾驶”意味着它们应当是有帮助的，而非充满风险的。现实中，已有律师因引用 ChatGPT 编造的虚假判例而惹上麻烦——而在更多不那么关键的场景下，又有多少类似错误已造成了隐患呢？