ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

“聪明但不可信的人”一直是小说(和历史)中的常见角色。而根据 OpenAI 的一项调查,这种相关性或许同样适用于 AI。《纽约时报》报道指出,自 AI 聊天机器人诞生以来,幻觉(即捏造的事实)和彻头彻尾的虚假信息就一直存在。理论上,模型的不断改进应当能够减少这类现象的发生频率。

ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

OpenAI 最新的旗舰模型 GPT o3 和 o4-mini 旨在模仿人类的逻辑推理方式。与早期侧重流畅文本生成的模型不同,GPT o3 和 o4-mini 更注重逐步推理的能力。OpenAI 曾表示,o1 模型在化学、生物和数学领域的表现已经可以媲美甚至超越博士生水平。然而,这份报告也揭示了一个令人警惕的事实:ChatGPT 的回答并不总是值得信赖。

OpenAI 发现,GPT o3 在一项涉及公众人物的基准测试中,有三分之一的回答出现了幻觉——这是去年 o1 模型错误率的两倍。而更小型的 o4-mini 表现更差,类似任务中的幻觉率高达 48%。在面向通识知识的 SimpleQA 基准测试中,GPT o3 的幻觉率上升到 51%,而 o4-mini 更是高达 79%。这不仅仅是些“小错误”,而是接近“认知崩溃”的水平。人们本希望这种被宣传为“推理系统”的模型,至少能在回答前自我检查其逻辑,但现实并非如此。

AI 研究界有一种正在流行的理论认为,模型推理得越多,出错的机会也越多。与那些只进行高置信度预测的简单模型相比,这些更复杂的模型需要评估多种可能路径、连接分散信息,甚至进行“即兴发挥”。而围绕事实的即兴发挥,本质上就是编造内容。

虚构式运作

当然,相关性不等于因果关系。OpenAI 告诉《纽约时报》,幻觉增多的原因未必是因为推理模型本身更糟,而可能仅仅是它们在表达上更冗长、更富探索性。由于新模型不仅是在重复可预测的事实,还会对“可能性”进行推测,因此理论与虚构之间的界限就容易变得模糊。不幸的是,这些“可能性”有时候完全脱离了现实。

然而,幻觉增多显然不是 OpenAI 或其竞争对手(如 Google 和 Anthropic)希望看到的结果。将 AI 聊天机器人称为“助手”或“副驾驶”意味着它们应当是有帮助的,而非充满风险的。现实中,已有律师因引用 ChatGPT 编造的虚假判例而惹上麻烦——而在更多不那么关键的场景下,又有多少类似错误已造成了隐患呢?

TechRadar的头像TechRadar认证作者

相关推荐

  • 苹果宣布罕见裁员——部分销售人员受影响

    据报道,苹果公司计划裁减部分销售人员,以便在某些业务领域更好地集中资源。 彭博社报道称,这家 iPhone 制造商可能会让数十名员工离开公司,这在苹果是相当罕见的举动。 受影响的员工主要负责企业、政府和教育领域的业务,这可能暗示苹果在这些领域的策略将有所调整。 关于苹果裁员? 苹果在向彭博社的声明中表示,为了“与更多客户建立联系,我们正在对销售团队进行一些调…

    2025年11月25日
    157
  • “有了 macOS,iPad 就失去了它作为 iPad 的独特之处”:苹果解释为何永远不会让平板变成完整的 Mac

    在苹果生态系统待得久了,你会经常听到一个问题:“苹果会不会把 iPad 和 Mac 合并?”无论是资深记者,还是你来访时的叔叔,很多人都想知道这个答案。 在 2025 年 WWDC 上,iPadOS 26 搭载了一系列类似 Mac 的功能——从改进的窗口管理到屏幕顶部的菜单栏——这个问题再次被提起。然而,苹果这次直接正面回应了这个话题。 在接受瑞士科技记者 …

    2025年6月16日
    512
  • 三星的Galaxy Watch FE通过Wear OS 5更新获得新功能

    尽管Galaxy Watch FE已经确认将收到One UI 6 Watch更新,但标准版型号在初期更新中优先推出。现在有报告显示,基于Wear OS 5的更新终于开始推送到首款Fan Edition Galaxy智能手表,带来了一波新功能。 根据Reddit上的帖子,Galaxy Watch 6、Galaxy Watch 5和Galaxy Watch 4的…

    2024年12月6日
    604
  • 更智能的睡眠:SmartThings 与三星健康集成

    三星正在更新其智能家居平台 SmartThings,进行重要的功能和升级,这是其承诺的季度更新的一部分。最值得注意的改进包括将三星健康(Samsung Health)集成进来,以提供更个性化的自动化功能、在应用内进行直接音频广播,以及扩展的 Matter 兼容性。 SmartThings 一直是三星及兼容智能家居设备的首选智能家居管理平台。这次更新增强了与三…

    2025年4月11日
    472
  • HDMI 2.2规格:下一代图像和音频传输的里程碑

    消费电子产品的世界一直在不断发展,这一次,随着HDMI 2.2标准的推出,一场重大的变革即将到来。HDMI论坛推出的这一新规格不仅承诺改善画面和音频播放,还为创新应用打开了大门,直到最近,这些应用因技术限制而受到严重制约。对于科技爱好者和玩家来说,HDMI 2.2的推出预计将在2025年上半年带来一些令人兴奋的升级。 HDMI在消费电子产品中的重要性 HDM…

    2025年1月10日
    411

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注