测试显示，ChatGPT-5 的幻觉率低于 GPT-4o —— 而 Grok 依然是“胡编乱造之王”

TechRadar • 2025年8月11日 20:35 • 科技

上周四，OpenAI 推出了 ChatGPT-5，CEO Sam Altman 在发布会上重点强调，这一代是“我们有史以来推出的最强大、最智能、最快速、最可靠、最稳健的 ChatGPT 版本”，同时 OpenAI 团队也表示，ChatGPT-5 将“缓解幻觉问题”。

测试显示，ChatGPT-5 的幻觉率低于 GPT-4o —— 而 Grok 依然是“胡编乱造之王”

在 AI 领域，当模型胡编乱造时，这种现象被称为“幻觉”（hallucination）。虽然所有大语言模型的幻觉率都有所下降，但它依然相当常见，也是我们无法完全信任 AI 独立执行任务、必须配备人工监督的主要原因之一。

提供 RAG 即服务（RAG-as-a-Service）和 AI Agent 平台的 Vectara，运营着业内领先的基础模型与推理模型幻觉率排行榜，他们对 OpenAI 的说法进行了测试。结果发现，ChatGPT-5 的幻觉率确实比 GPT-4 低，但相比 ChatGPT-4o 仅低了 0.09%。

根据 Vectara 数据，ChatGPT-5 的“有依据幻觉率”（grounded hallucination rate）为 1.4%，而 GPT-4 为 1.8%，GPT-4 turbo 和 4o mini 为 1.69%，GPT-4o 为 1.49%。

更有趣的是，ChatGPT-5 的幻觉率甚至略高于 ChatGPT-4.5 Preview 模式（1.2%），但仍显著高于 OpenAI 的 o3-mini High Reasoning 模型（0.795%），后者是目前表现最好的 GPT 模型。

Vectara 的测试结果可在 Hugging Face 上的 Hughes Hallucination Evaluation Model（HHEM）排行榜查看。该榜单说明：“对于大语言模型，其幻觉率定义为：产生幻觉的摘要数量占其生成摘要总数的比例。”

不过，与竞争对手相比，ChatGPT-5 的幻觉率仍低很多：Gemini-2.5-pro 为 2.6%，而 Grok-4 则高达 4.8%。

ChatGPT-5 OpenAI

TechRadar认证作者

0 0

科技

Microsoft Paint更新了AI功能

Microsoft Paint，这个你可能只会在快速裁剪图像时调用的简单程序，正在通过一个新的Copilot按钮获得AI升级。微软的AI助手现在可以帮助创建和增强你在Paint中绘制的任何草图或图像。现在，这个更新仅限于Windows Insiders，但预计微软将在完善该功能后逐步扩大访问范围。对于有权限的用户，点击Paint任务栏中的Copilot按钮…

TechRadar
2025年2月4日
723
手机

One UI 7测试版已上线：新功能和兼容设备介绍

三星Galaxy粉丝们欢呼吧！One UI 7测试版计划终于上线了。这款基于Android 15的三星移动操作系统预计将于2025年初正式发布。从今天开始，Galaxy S24 Ultra用户可以加入测试版计划。以下是如何测试新功能以及未来Galaxy设备可能有哪些期待。 One UI 7测试版计划：可用性及下载方式三星德国已确认，One UI 7测试版计…

Nextpit
2024年12月6日
1.5K
科技

美国主要 PC 厂商暗示未公布的 AMD EPYC 4005 mini PC 正在被用于庞大的 35 单元 42U 机架中

Puget Systems 宣布推出一款专为游戏开发者设计的新款 5 节点 6U Rackstation。新的 5 节点 6U Rackstation 提供了一个高效且节省空间的解决方案，非常适合需要灵活且强大系统的工作室。每个机箱可容纳五个独立的工作站，占用相当于一台大型桌面的空间，在标准的 42U 机架中最多可放置 35 个系统。有趣的是，如果你点击…

TechRadar
2025年5月7日
697
科技

谷歌最新的 Gemini AI 模型意味着你的未来机器人管家即使没有 Wi-Fi 也能正常工作

多年来，我们一直被承诺将拥有能够帮你叠衣服、切洋葱，甚至像我们最喜欢的古装剧中那样说出妙语连珠的机器人管家。但这些承诺从未提到一个问题——不小心拔掉路由器可能会让那个机械管家瘫痪。谷歌声称，其最新的 Gemini AI 模型解决了这个问题。谷歌 DeepMind 推出了新的 Gemini 机器人端侧AI模型，旨在让机器人在电力中断和偏远地区工作时保持安全。…

TechRadar
2025年6月26日
508
科技

免费版 ChatGPT 即将面向教师开放 —— OpenAI 正寻求将其聊天机器人影响力扩展至校园

OpenAI 推出了专为教师设计的 ChatGPT 版本，经过验证的美国 K–12 教育工作者可在 2027 年 6 月之前免费使用。该平台提供无限制的 GPT-5.1 Auto 对话、搜索功能、文件上传、第三方应用连接以及图像生成。 OpenAI 表示，此举旨在帮助教育工作者简化备课流程、独立探索 AI，同时尝试适用于课堂场景的 AI 工具。安全且合…

TechRadar
2025年11月24日
618

发表回复