ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

“聪明但不可信的人”一直是小说(和历史)中的常见角色。而根据 OpenAI 的一项调查,这种相关性或许同样适用于 AI。《纽约时报》报道指出,自 AI 聊天机器人诞生以来,幻觉(即捏造的事实)和彻头彻尾的虚假信息就一直存在。理论上,模型的不断改进应当能够减少这类现象的发生频率。

ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

OpenAI 最新的旗舰模型 GPT o3 和 o4-mini 旨在模仿人类的逻辑推理方式。与早期侧重流畅文本生成的模型不同,GPT o3 和 o4-mini 更注重逐步推理的能力。OpenAI 曾表示,o1 模型在化学、生物和数学领域的表现已经可以媲美甚至超越博士生水平。然而,这份报告也揭示了一个令人警惕的事实:ChatGPT 的回答并不总是值得信赖。

OpenAI 发现,GPT o3 在一项涉及公众人物的基准测试中,有三分之一的回答出现了幻觉——这是去年 o1 模型错误率的两倍。而更小型的 o4-mini 表现更差,类似任务中的幻觉率高达 48%。在面向通识知识的 SimpleQA 基准测试中,GPT o3 的幻觉率上升到 51%,而 o4-mini 更是高达 79%。这不仅仅是些“小错误”,而是接近“认知崩溃”的水平。人们本希望这种被宣传为“推理系统”的模型,至少能在回答前自我检查其逻辑,但现实并非如此。

AI 研究界有一种正在流行的理论认为,模型推理得越多,出错的机会也越多。与那些只进行高置信度预测的简单模型相比,这些更复杂的模型需要评估多种可能路径、连接分散信息,甚至进行“即兴发挥”。而围绕事实的即兴发挥,本质上就是编造内容。

虚构式运作

当然,相关性不等于因果关系。OpenAI 告诉《纽约时报》,幻觉增多的原因未必是因为推理模型本身更糟,而可能仅仅是它们在表达上更冗长、更富探索性。由于新模型不仅是在重复可预测的事实,还会对“可能性”进行推测,因此理论与虚构之间的界限就容易变得模糊。不幸的是,这些“可能性”有时候完全脱离了现实。

然而,幻觉增多显然不是 OpenAI 或其竞争对手(如 Google 和 Anthropic)希望看到的结果。将 AI 聊天机器人称为“助手”或“副驾驶”意味着它们应当是有帮助的,而非充满风险的。现实中,已有律师因引用 ChatGPT 编造的虚假判例而惹上麻烦——而在更多不那么关键的场景下,又有多少类似错误已造成了隐患呢?

TechRadar的头像TechRadar认证作者

相关推荐

  • OpenAI的GPT-4.5旨在实现更好的识别能力和更少的幻觉现象

    在宣布GPT-4o不到一年后,OpenAI推出了GPT-4.5,这是其迄今为止最先进的语言模型。根据公司介绍,GPT-4.5在模式识别、语境理解和创造性问题解决方面带来了显著的改进。 更自然直观的ChatGPT OpenAI将GPT-4.5描述为比其前代更自然、更智能。在一条X帖子中,CEO Sam Altman甚至称其为“第一个让我感觉像是在和一个有思想的…

    2025年3月2日
    543
  • Google Messages 新功能或将彻底终结垃圾短信

    谷歌持续改进 Android 系统,推出更多工具以打击垃圾信息和诈骗行为,尤其是在其默认的短信应用中。通过最新更新,Google Messages(谷歌短信)引入了一个更加简洁的“退订”功能,让用户能更好地掌控广播广告和不需要的消息。 从“停止”到“退订”:更精细的工具 去年,有用户发现谷歌在短信应用中测试一个“停止”按钮,帮助用户快速取消订阅促销或垃圾短信…

    2025年4月9日
    564
  • “多出2英寸,屏幕大30%”:惠普将18英寸笔记本电脑宣传为科技界最新的颠覆性产品

    这主要是个人喜好,但我一直喜欢屏幕更大的笔记本电脑。对我来说,16英寸就是合适的尺寸,但HP认为,如果专业人士希望用笔记本电脑替代台式机并获得强大的生产力提升,那么18英寸才是理想选择。 HP ZBook Fury G1i 18”被誉为全球最强大的18英寸移动工作站,但它依然可以放进17英寸的背包中。额外的2英寸屏幕空间能带来约30%的工作区域提升,在处理复…

    2025年3月23日
    503
  • GMKtec 下一款迷你电脑将首度搭载英特尔 Panther Lake——并拥有一些令人印象深刻的硬件规格

    GMKtec 已在英特尔 2025 年技术创新与产业生态大会上确认了 EVO-T1 的继任者——EVO-T2,这款迷你电脑将成为首批采用英特尔 Panther Lake 平台的产品。 公司表示,该系统将搭载一颗 “Panther Lake H 12Xe3” 处理器,隶属于 Core Ultra 300H 系列,是一款高端移动处理器,TDP 可配置高达 80 …

    2025年11月25日
    98
  • 告别屏闪:Google 承诺修复 Pixel 重大屏幕缺陷

    Google 的 Pixel 智能手机以其高质量的显示屏而闻名。最近的 Pixel 机型采用了 PWM(脉宽调制)技术来调节屏幕亮度。尽管 PWM 有多项优点,但其一个显著缺点是会让对闪烁敏感的用户产生头痛和恶心的症状。Google 暗示今年可能会解决这个问题,或许会在下一代 Pixel 设备中进行改进。 Google Pixel 9 系列以及 Pixel …

    2025年5月2日
    516

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注