测试显示,ChatGPT-5 的幻觉率低于 GPT-4o —— 而 Grok 依然是“胡编乱造之王”

上周四,OpenAI 推出了 ChatGPT-5,CEO Sam Altman 在发布会上重点强调,这一代是“我们有史以来推出的最强大、最智能、最快速、最可靠、最稳健的 ChatGPT 版本”,同时 OpenAI 团队也表示,ChatGPT-5 将“缓解幻觉问题”。

测试显示,ChatGPT-5 的幻觉率低于 GPT-4o —— 而 Grok 依然是“胡编乱造之王”

在 AI 领域,当模型胡编乱造时,这种现象被称为“幻觉”(hallucination)。虽然所有大语言模型的幻觉率都有所下降,但它依然相当常见,也是我们无法完全信任 AI 独立执行任务、必须配备人工监督的主要原因之一。

提供 RAG 即服务(RAG-as-a-Service)和 AI Agent 平台的 Vectara,运营着业内领先的基础模型与推理模型幻觉率排行榜,他们对 OpenAI 的说法进行了测试。结果发现,ChatGPT-5 的幻觉率确实比 GPT-4 低,但相比 ChatGPT-4o 仅低了 0.09%。

根据 Vectara 数据,ChatGPT-5 的“有依据幻觉率”(grounded hallucination rate)为 1.4%,而 GPT-4 为 1.8%,GPT-4 turbo 和 4o mini 为 1.69%,GPT-4o 为 1.49%。

更有趣的是,ChatGPT-5 的幻觉率甚至略高于 ChatGPT-4.5 Preview 模式(1.2%),但仍显著高于 OpenAI 的 o3-mini High Reasoning 模型(0.795%),后者是目前表现最好的 GPT 模型。

Vectara 的测试结果可在 Hugging Face 上的 Hughes Hallucination Evaluation Model(HHEM)排行榜查看。该榜单说明:“对于大语言模型,其幻觉率定义为:产生幻觉的摘要数量占其生成摘要总数的比例。”

不过,与竞争对手相比,ChatGPT-5 的幻觉率仍低很多:Gemini-2.5-pro 为 2.6%,而 Grok-4 则高达 4.8%。

TechRadar的头像TechRadar认证作者

相关推荐

  • 你的iPhone即将变得更智能——多亏了谷歌

    苹果在iPhone上推出的Apple Intelligence并不顺利。尽管ChatGPT集成是在iOS 18中后期添加的,用以处理更复杂的查询,但苹果已确认,未来用户将有机会选择其他第三方AI模型。现在,看起来谷歌的Gemini AI可能会成为下一个集成的模型。 iOS 18.4 Beta暗示Gemini AI集成 苹果最近发布了iOS 18.4 Beta…

    2025年2月28日
    400
  • 苹果宣布罕见裁员——部分销售人员受影响

    据报道,苹果公司计划裁减部分销售人员,以便在某些业务领域更好地集中资源。 彭博社报道称,这家 iPhone 制造商可能会让数十名员工离开公司,这在苹果是相当罕见的举动。 受影响的员工主要负责企业、政府和教育领域的业务,这可能暗示苹果在这些领域的策略将有所调整。 关于苹果裁员? 苹果在向彭博社的声明中表示,为了“与更多客户建立联系,我们正在对销售团队进行一些调…

    2025年11月25日
    101
  • ChatGPT解释——你需要了解的关于AI聊天机器人的一切

    OpenAI的ChatGPT引领着生成性AI的改变,迅速吸引了数百万用户,并承诺将改变我们创造和工作的方式。从许多方面来看,这感觉像是另一个iPhone时刻——一款新产品对技术领域产生了重大影响。 这款由OpenAI开发、基于大型语言模型(LLM)的AI聊天机器人,正在不断扩展其功能和智能。本文将为你介绍关于ChatGPT的一切,包括它是如何工作的,以及它是…

    2025年2月14日
    396
  • macOS Sequoia 15.2新增多项AI功能 集成ChatGPT成亮点

    Apple 向开发者推出 macOS Sequoia 15.2 首个测试版,为 Mac 电脑加入多项备受期待的人工智能新功能,包括 ChatGPT 整合与 Image Playground 等。 新功能抢先体验 在 macOS Sequoia 15.1 正式版本尚未推出之际,Apple 已推出下一个系统更新测试版。开发者可透过系统设定中的软体更新下载安装,预…

    2024年10月24日
    917
  • 华硕警告:AiCloud 路由器出现新安全漏洞——目前已知信息如下

    华硕(Asus)已经为其路由器固件中的一个严重级别漏洞推出补丁,该漏洞可能被用于远程代码执行(RCE)攻击。鉴于潜在风险,强烈建议用户立即进行更新。 在一份发布的安全公告中,华硕表示已修复 CVE-2025-593656 —— 这是一个影响部分路由器 AiCloud 远程访问/云功能的严重认证绕过漏洞。 问题源自该功能与 Samba 文件共享代码的交互出现缺…

    2025年11月28日
    113

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注