ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

“聪明但不可信的人”一直是小说(和历史)中的常见角色。而根据 OpenAI 的一项调查,这种相关性或许同样适用于 AI。《纽约时报》报道指出,自 AI 聊天机器人诞生以来,幻觉(即捏造的事实)和彻头彻尾的虚假信息就一直存在。理论上,模型的不断改进应当能够减少这类现象的发生频率。

ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

OpenAI 最新的旗舰模型 GPT o3 和 o4-mini 旨在模仿人类的逻辑推理方式。与早期侧重流畅文本生成的模型不同,GPT o3 和 o4-mini 更注重逐步推理的能力。OpenAI 曾表示,o1 模型在化学、生物和数学领域的表现已经可以媲美甚至超越博士生水平。然而,这份报告也揭示了一个令人警惕的事实:ChatGPT 的回答并不总是值得信赖。

OpenAI 发现,GPT o3 在一项涉及公众人物的基准测试中,有三分之一的回答出现了幻觉——这是去年 o1 模型错误率的两倍。而更小型的 o4-mini 表现更差,类似任务中的幻觉率高达 48%。在面向通识知识的 SimpleQA 基准测试中,GPT o3 的幻觉率上升到 51%,而 o4-mini 更是高达 79%。这不仅仅是些“小错误”,而是接近“认知崩溃”的水平。人们本希望这种被宣传为“推理系统”的模型,至少能在回答前自我检查其逻辑,但现实并非如此。

AI 研究界有一种正在流行的理论认为,模型推理得越多,出错的机会也越多。与那些只进行高置信度预测的简单模型相比,这些更复杂的模型需要评估多种可能路径、连接分散信息,甚至进行“即兴发挥”。而围绕事实的即兴发挥,本质上就是编造内容。

虚构式运作

当然,相关性不等于因果关系。OpenAI 告诉《纽约时报》,幻觉增多的原因未必是因为推理模型本身更糟,而可能仅仅是它们在表达上更冗长、更富探索性。由于新模型不仅是在重复可预测的事实,还会对“可能性”进行推测,因此理论与虚构之间的界限就容易变得模糊。不幸的是,这些“可能性”有时候完全脱离了现实。

然而,幻觉增多显然不是 OpenAI 或其竞争对手(如 Google 和 Anthropic)希望看到的结果。将 AI 聊天机器人称为“助手”或“副驾驶”意味着它们应当是有帮助的,而非充满风险的。现实中,已有律师因引用 ChatGPT 编造的虚假判例而惹上麻烦——而在更多不那么关键的场景下,又有多少类似错误已造成了隐患呢?

TechRadar的头像TechRadar认证作者

相关推荐

  • AMD 旗舰级移动处理器将驱动 GPD Win 5 掌机——准备好为显卡级别的价格买单吧

    随着 MSI Claw A8 和 ROG Xbox Ally 等新设备的陆续登场,掌上游戏设备市场正在迅速扩张。不过,对于许多用户而言,价格始终是一个关键顾虑。然而,一款有望轻松超越现有掌上游戏电脑的新设备近日被曝光——但它的售价预计也将相当高昂。 据《Tom’s Hardware》报道,GPD 在 X 平台上预告了一款全新的掌上游戏电脑——GP…

    2025年7月26日
    301
  • Nothing Phone (3) 即将发布,Nothing 官方确认

    6 月 3 日星期二,Nothing 官方宣布了 Nothing Phone (3)的发布会日期。这款被称为“首款真正旗舰机”的智能手机将于 7 月 1 日正式亮相。这款手机备受期待,因为它标志着 Nothing 商业战略的重要转变。鉴于近期关于 Phone (3)价格泄露的反响,这家总部位于伦敦的厂商在定价上没有太多余地可犯错。 Nothing 将于 7 …

    2025年6月5日
    384
  • 得知你的老款 Apple Watch 能运行 watchOS 26 让你感到惊讶?不过,你可能仍然会错过一些很棒的新功能

    昨天,在 2025 年全球开发者大会(WWDC)上,苹果公司发布了 watchOS 26,展示了一款经过升级、增添了一系列备受欢迎的新功能和特性的操作系统。不过,如果你希望试用这些新功能,你需要先查看你的 Apple Watch 是否兼容——因为许多最受欢迎的型号并不兼容。 从表面上看,大多数最优秀的 Apple Watch 型号都能与 watchOS 26…

    2025年6月10日
    505
  • 大众接下来计划是什么?自动驾驶出租车即将上路

    曾被视为纯粹科幻的场景即将变成现实:自动驾驶的 Uber 车辆将无需人工干预,安全地将乘客送达目的地。这项技术由大众汽车(Volkswagen)提供。相关负责人表示,这是一项雄心勃勃的十年计划。 自动驾驶汽车已在公共道路上测试多年。在旧金山等城市,由谷歌母公司 Alphabet 旗下的 Waymo 以及 Cruise 推出的机器人出租车已经成为街头一景,尽管…

    2025年4月29日
    329
  • 平板电脑销量正在上升——它们会成为提升你工作效率的关键吗?

    最新数据显示,2025 年第三季度全球平板电脑出货量同比增长 5%,达到 4000 万台。 分析公司 Omdia 的研究指出,这已经是连续第七个季度的增长,主要受中东、中欧和中国市场强劲需求的推动。 这种增长可能并非微不足道——随着 Windows 10 停止支持、成本上升以及平板电脑性能不断提升,消费者和企业可能正在寻求更具成本效益的移动计算解决方案。 平…

    2025年11月7日
    144

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注