ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

“聪明但不可信的人”一直是小说(和历史)中的常见角色。而根据 OpenAI 的一项调查,这种相关性或许同样适用于 AI。《纽约时报》报道指出,自 AI 聊天机器人诞生以来,幻觉(即捏造的事实)和彻头彻尾的虚假信息就一直存在。理论上,模型的不断改进应当能够减少这类现象的发生频率。

ChatGPT 正变得越来越聪明,但它的幻觉也在 spiraling(失控)

OpenAI 最新的旗舰模型 GPT o3 和 o4-mini 旨在模仿人类的逻辑推理方式。与早期侧重流畅文本生成的模型不同,GPT o3 和 o4-mini 更注重逐步推理的能力。OpenAI 曾表示,o1 模型在化学、生物和数学领域的表现已经可以媲美甚至超越博士生水平。然而,这份报告也揭示了一个令人警惕的事实:ChatGPT 的回答并不总是值得信赖。

OpenAI 发现,GPT o3 在一项涉及公众人物的基准测试中,有三分之一的回答出现了幻觉——这是去年 o1 模型错误率的两倍。而更小型的 o4-mini 表现更差,类似任务中的幻觉率高达 48%。在面向通识知识的 SimpleQA 基准测试中,GPT o3 的幻觉率上升到 51%,而 o4-mini 更是高达 79%。这不仅仅是些“小错误”,而是接近“认知崩溃”的水平。人们本希望这种被宣传为“推理系统”的模型,至少能在回答前自我检查其逻辑,但现实并非如此。

AI 研究界有一种正在流行的理论认为,模型推理得越多,出错的机会也越多。与那些只进行高置信度预测的简单模型相比,这些更复杂的模型需要评估多种可能路径、连接分散信息,甚至进行“即兴发挥”。而围绕事实的即兴发挥,本质上就是编造内容。

虚构式运作

当然,相关性不等于因果关系。OpenAI 告诉《纽约时报》,幻觉增多的原因未必是因为推理模型本身更糟,而可能仅仅是它们在表达上更冗长、更富探索性。由于新模型不仅是在重复可预测的事实,还会对“可能性”进行推测,因此理论与虚构之间的界限就容易变得模糊。不幸的是,这些“可能性”有时候完全脱离了现实。

然而,幻觉增多显然不是 OpenAI 或其竞争对手(如 Google 和 Anthropic)希望看到的结果。将 AI 聊天机器人称为“助手”或“副驾驶”意味着它们应当是有帮助的,而非充满风险的。现实中,已有律师因引用 ChatGPT 编造的虚假判例而惹上麻烦——而在更多不那么关键的场景下,又有多少类似错误已造成了隐患呢?

TechRadar的头像TechRadar认证作者

相关推荐

  • 谷歌已经停止销售Chromecast with Google TV——但我绝对不会更换我的设备

    在推出四年半后,Chromecast with Google TV不再由谷歌销售——它加入了像Google Daydream和Nexus Q(还记得吗?)这样的产品,成为谷歌硬件产品“墓地”的一员。 9to5Google等媒体注意到,这款设备已从官方Google商店下架,4K和HD版本都不再供应。HD版本于2022年推出,比原版晚了两年。 尽管你或许还能通过…

    2025年2月22日
    175
  • 微软的人工智能助手Copilot几乎可以看到你在做什么

    微软(Microsoft)的人工智能助手Copilot将开始看到你在网上看到的东西。据x网站上的一篇文章称,这家科技巨头在一个月前对Copilot进行了重大改造,其中包括一项名为“Copilot Vision”的功能,该功能只针对注册了Copilot实验室实验中心的特定群体,但现在让人工智能能够看到你屏幕上的所有东西,这将是每个人的选择。 在收集了上个月左右…

    2024年11月5日
    216
  • 小米 SU7 Ultra 预订价公布,SU7 10 月交车突破 2 万部

    小米在原型车亮相三个月后,昨晚终于正式发表 SU7 Ultra 限量版。实际发售的版本外观比原型车平实,但仍然拥有不少跑车特色。虽然还有详情有待公布,不过新车已经开始正式接受预订。 SU7 Ultra 限量版保留了大尺寸前铲、U 形风刀和固定尾翼等特色,并在车身 17 处,包括车顶、方向盘、前排座椅背板及尾翼等位置採用碳纤维材质。而原型车的三摩打系统则继续获…

    2024年10月30日
    322
  • 忘了 iPad 吧,迎接 iDesk?iOS 19 或将赋予 iPhone 真正的桌面级能力

    虽然 iPhone 早已支持通过有线连接输出显示,但这一功能一直非常基础。不过,这种情况可能会在即将到来的 iOS 19 更新中发生改变,有传言称,苹果可能会在 iPhone 连接外接显示器或电视时,引入类似 Stage Manager(幕前调度器)的体验,有望在一定程度上借鉴三星 Galaxy 设备上的生产力特性。 目前,iPhone 可以通过 Light…

    2025年4月26日
    112
  • AMD 联手富士通挑战 NVIDIA H200 共同开发 AI、HPC 运算平台

    富士通与 AMD 于上周五(1日)宣布展开战略合作,联手研发低成本、低功耗 AI 平台。透过结合富士通 CPU 技术及 AMD GPU 技术共同开发 AI 及 HPC 运算平台,目标能在 2027 年初提供支持 AI 的软硬件服务。 富士通目前正开发较为节能的 FUJITSU-MONAKA CPU,该 CPU 可用于资料中心、AI 及高效能运算。这款 2 纳…

    2024年11月4日
    217

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注