测试显示,ChatGPT-5 的幻觉率低于 GPT-4o —— 而 Grok 依然是“胡编乱造之王”

上周四,OpenAI 推出了 ChatGPT-5,CEO Sam Altman 在发布会上重点强调,这一代是“我们有史以来推出的最强大、最智能、最快速、最可靠、最稳健的 ChatGPT 版本”,同时 OpenAI 团队也表示,ChatGPT-5 将“缓解幻觉问题”。

测试显示,ChatGPT-5 的幻觉率低于 GPT-4o —— 而 Grok 依然是“胡编乱造之王”

在 AI 领域,当模型胡编乱造时,这种现象被称为“幻觉”(hallucination)。虽然所有大语言模型的幻觉率都有所下降,但它依然相当常见,也是我们无法完全信任 AI 独立执行任务、必须配备人工监督的主要原因之一。

提供 RAG 即服务(RAG-as-a-Service)和 AI Agent 平台的 Vectara,运营着业内领先的基础模型与推理模型幻觉率排行榜,他们对 OpenAI 的说法进行了测试。结果发现,ChatGPT-5 的幻觉率确实比 GPT-4 低,但相比 ChatGPT-4o 仅低了 0.09%。

根据 Vectara 数据,ChatGPT-5 的“有依据幻觉率”(grounded hallucination rate)为 1.4%,而 GPT-4 为 1.8%,GPT-4 turbo 和 4o mini 为 1.69%,GPT-4o 为 1.49%。

更有趣的是,ChatGPT-5 的幻觉率甚至略高于 ChatGPT-4.5 Preview 模式(1.2%),但仍显著高于 OpenAI 的 o3-mini High Reasoning 模型(0.795%),后者是目前表现最好的 GPT 模型。

Vectara 的测试结果可在 Hugging Face 上的 Hughes Hallucination Evaluation Model(HHEM)排行榜查看。该榜单说明:“对于大语言模型,其幻觉率定义为:产生幻觉的摘要数量占其生成摘要总数的比例。”

不过,与竞争对手相比,ChatGPT-5 的幻觉率仍低很多:Gemini-2.5-pro 为 2.6%,而 Grok-4 则高达 4.8%。

TechRadar的头像TechRadar认证作者

相关推荐

  • Microsoft Paint更新了AI功能

    Microsoft Paint,这个你可能只会在快速裁剪图像时调用的简单程序,正在通过一个新的Copilot按钮获得AI升级。微软的AI助手现在可以帮助创建和增强你在Paint中绘制的任何草图或图像。现在,这个更新仅限于Windows Insiders,但预计微软将在完善该功能后逐步扩大访问范围。 对于有权限的用户,点击Paint任务栏中的Copilot按钮…

    2025年2月4日
    723
  • One UI 7测试版已上线:新功能和兼容设备介绍

    三星Galaxy粉丝们欢呼吧!One UI 7测试版计划终于上线了。这款基于Android 15的三星移动操作系统预计将于2025年初正式发布。从今天开始,Galaxy S24 Ultra用户可以加入测试版计划。以下是如何测试新功能以及未来Galaxy设备可能有哪些期待。 One UI 7测试版计划:可用性及下载方式 三星德国已确认,One UI 7测试版计…

    2024年12月6日
    1.5K
  • 美国主要 PC 厂商暗示未公布的 AMD EPYC 4005 mini PC 正在被用于庞大的 35 单元 42U 机架中

    Puget Systems 宣布推出一款专为游戏开发者设计的新款 5 节点 6U Rackstation。新的 5 节点 6U Rackstation 提供了一个高效且节省空间的解决方案,非常适合需要灵活且强大系统的工作室。 每个机箱可容纳五个独立的工作站,占用相当于一台大型桌面的空间,在标准的 42U 机架中最多可放置 35 个系统。 有趣的是,如果你点击…

    2025年5月7日
    697
  • 谷歌最新的 Gemini AI 模型意味着你的未来机器人管家即使没有 Wi-Fi 也能正常工作

    多年来,我们一直被承诺将拥有能够帮你叠衣服、切洋葱,甚至像我们最喜欢的古装剧中那样说出妙语连珠的机器人管家。但这些承诺从未提到一个问题——不小心拔掉路由器可能会让那个机械管家瘫痪。谷歌声称,其最新的 Gemini AI 模型解决了这个问题。 谷歌 DeepMind 推出了新的 Gemini 机器人端侧AI模型,旨在让机器人在电力中断和偏远地区工作时保持安全。…

    2025年6月26日
    508
  • 免费版 ChatGPT 即将面向教师开放 —— OpenAI 正寻求将其聊天机器人影响力扩展至校园

    OpenAI 推出了专为教师设计的 ChatGPT 版本,经过验证的美国 K–12 教育工作者可在 2027 年 6 月之前免费使用。 该平台提供 无限制的 GPT-5.1 Auto 对话、搜索功能、文件上传、第三方应用连接以及图像生成。 OpenAI 表示,此举旨在帮助教育工作者简化备课流程、独立探索 AI,同时尝试适用于课堂场景的 AI 工具。 安全且合…

    2025年11月24日
    618

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注