上周四,OpenAI 推出了 ChatGPT-5,CEO Sam Altman 在发布会上重点强调,这一代是“我们有史以来推出的最强大、最智能、最快速、最可靠、最稳健的 ChatGPT 版本”,同时 OpenAI 团队也表示,ChatGPT-5 将“缓解幻觉问题”。

在 AI 领域,当模型胡编乱造时,这种现象被称为“幻觉”(hallucination)。虽然所有大语言模型的幻觉率都有所下降,但它依然相当常见,也是我们无法完全信任 AI 独立执行任务、必须配备人工监督的主要原因之一。
提供 RAG 即服务(RAG-as-a-Service)和 AI Agent 平台的 Vectara,运营着业内领先的基础模型与推理模型幻觉率排行榜,他们对 OpenAI 的说法进行了测试。结果发现,ChatGPT-5 的幻觉率确实比 GPT-4 低,但相比 ChatGPT-4o 仅低了 0.09%。
根据 Vectara 数据,ChatGPT-5 的“有依据幻觉率”(grounded hallucination rate)为 1.4%,而 GPT-4 为 1.8%,GPT-4 turbo 和 4o mini 为 1.69%,GPT-4o 为 1.49%。
更有趣的是,ChatGPT-5 的幻觉率甚至略高于 ChatGPT-4.5 Preview 模式(1.2%),但仍显著高于 OpenAI 的 o3-mini High Reasoning 模型(0.795%),后者是目前表现最好的 GPT 模型。
Vectara 的测试结果可在 Hugging Face 上的 Hughes Hallucination Evaluation Model(HHEM)排行榜查看。该榜单说明:“对于大语言模型,其幻觉率定义为:产生幻觉的摘要数量占其生成摘要总数的比例。”
不过,与竞争对手相比,ChatGPT-5 的幻觉率仍低很多:Gemini-2.5-pro 为 2.6%,而 Grok-4 则高达 4.8%。