测试显示,ChatGPT-5 的幻觉率低于 GPT-4o —— 而 Grok 依然是“胡编乱造之王”

上周四,OpenAI 推出了 ChatGPT-5,CEO Sam Altman 在发布会上重点强调,这一代是“我们有史以来推出的最强大、最智能、最快速、最可靠、最稳健的 ChatGPT 版本”,同时 OpenAI 团队也表示,ChatGPT-5 将“缓解幻觉问题”。

测试显示,ChatGPT-5 的幻觉率低于 GPT-4o —— 而 Grok 依然是“胡编乱造之王”

在 AI 领域,当模型胡编乱造时,这种现象被称为“幻觉”(hallucination)。虽然所有大语言模型的幻觉率都有所下降,但它依然相当常见,也是我们无法完全信任 AI 独立执行任务、必须配备人工监督的主要原因之一。

提供 RAG 即服务(RAG-as-a-Service)和 AI Agent 平台的 Vectara,运营着业内领先的基础模型与推理模型幻觉率排行榜,他们对 OpenAI 的说法进行了测试。结果发现,ChatGPT-5 的幻觉率确实比 GPT-4 低,但相比 ChatGPT-4o 仅低了 0.09%。

根据 Vectara 数据,ChatGPT-5 的“有依据幻觉率”(grounded hallucination rate)为 1.4%,而 GPT-4 为 1.8%,GPT-4 turbo 和 4o mini 为 1.69%,GPT-4o 为 1.49%。

更有趣的是,ChatGPT-5 的幻觉率甚至略高于 ChatGPT-4.5 Preview 模式(1.2%),但仍显著高于 OpenAI 的 o3-mini High Reasoning 模型(0.795%),后者是目前表现最好的 GPT 模型。

Vectara 的测试结果可在 Hugging Face 上的 Hughes Hallucination Evaluation Model(HHEM)排行榜查看。该榜单说明:“对于大语言模型,其幻觉率定义为:产生幻觉的摘要数量占其生成摘要总数的比例。”

不过,与竞争对手相比,ChatGPT-5 的幻觉率仍低很多:Gemini-2.5-pro 为 2.6%,而 Grok-4 则高达 4.8%。

TechRadar的头像TechRadar认证作者

相关推荐

  • 3000亿且持续增长:全球最受欢迎的芯片设计公司迎来40周年,所有的一切始于一间木制谷仓

    1985年4月,英国剑桥的 Acorn Computers 公司小团队着手重新思考处理器的概念。工程师 Sophie Wilson 和 Steve Furber 开发了 ARM1(最初代表 Advanced RISC Machines),这是一款看似普通、只有 25,000 个晶体管的芯片,旨在为 BBC Micro 提供动力,打造了一款强调简化指令集以实现…

    2025年4月26日
    439
  • Apple Watch推出十周年纪念,将会有特别活动

    在最新的iOS 18.2测试版中,有开发者发现了「Ten Year Celebration」的相关活动成就提示,适逢Apple Watch推出十周年,Apple很可能正在筹备相关活动。 Apple Watch是在2014年9月的iPhone发布会上首次亮相,但直到2015年4月才正式发售,因此其十周年纪念究竟是2024年还是2025年仍然难以判断。Apple…

    2024年11月8日
    599
  • Tesla 预告明年将推更便宜车款,不过并非最初计划的 25,000 美元以下型号

    Apple 宣布 29 日凌晨发布新产品市场上对於 Tesla 会否推出更便宜的电动车一直相当关注,早前有传闻指 Tesla 放弃入门电动车的开发计划,导致投资者不满之后,Tesla 在最新的业绩报告中就再次重申,计划在明年推出更便宜的车款。 Tesla 在 2024 年电动车平均最低价格超过 63,000 美元,门槛并不算低,因此也被视為销量难以再有突破的…

    2024年10月26日
    406
  • ChatGPT 进阶语音功能 即日起登陆 Windows、Mac 程式

    日前 OpenAI 宣布在 macOS 和 Windows 版程式加入进阶语音模型支援,合资格用户将程式更新至最新版本即可试用。以往进阶语音模型只可以在网页版使用,现在 OpenAI 扩大了技术的应用范围,在今次更新将功能进一步开放予桌面程式用户。 OpenAI 表示进阶语音功能提供 5 种新的语音,同时改善部分外语的口音,并提升对话速度和流畅度,令活动变得…

    2024年11月3日
    551
  • Fitbit 用户失去 Google Assistant:Alexa 是唯一的替代方案吗?

    自从谷歌宣布将其语音助手服务过渡到 Gemini 后,外界就一直预期 Google Assistant 会逐步退出。而如今,这一变化也开始影响运行 Fitbit OS 的 Fitbit 设备。谷歌已经开始通知用户,将停止在 Fitbit 智能手表和健身追踪器上支持 Google Assistant,而目前确认保留的唯一语音助手是亚马逊的 Alexa。 谷歌最…

    2025年4月20日
    518

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注