大语言模型(Large Language Model)为什么会“幻觉”?OpenAI最新发布揭示大模型幻觉根源与解决路径
尽管人工智能语言模型的能力日益强大,但它们依然面临一个棘手的问题:“幻觉”(Hallucination)。所谓幻觉,指的是模型自信地生成一个事实上错误的答案。OpenAI 的最新研究论文指出,这一现象的根源在于标准的训练和评估方式实际上在鼓励模型“猜测”而非“承认不确定性”。

即使是最新一代的 GPT-5,虽然在推理任务中幻觉显著减少,但这一问题仍未完全解决。幻觉仍然是所有大语言模型(LLM)面临的基本挑战。
本文基于OpenAI的原文,为大家解释大模型的幻觉来源以及如何避免大模型的幻觉问题。我们也基于这个内容用GPT-5生成了一个单网页,欢迎大家访问:https://www.datalearner.com/llm_cookbook/why-language-models-hallucinate
什么是大模型的幻觉?
幻觉指的是语言模型生成的看似合理、实则错误的陈述。即使是看似简单的问题,模型也可能给出多个错误答案。例如,当研究人员向某常用聊天机器人询问论文作者 Adam Tauman Kalai 的博士论文题目时,模型自信地给出了三个不同的答案——没有一个正确。同样地,当被问及他的生日时,模型也提供了三个错误日期。
大模型幻觉为何难以消失:“应试教育”式的评估机制的原因
幻觉之所以难以消除,部分原因在于当前的评估方法设定了错误的激励方向。大多数评估方式只关注模型答对的比例(准确率),而忽略了“承认不知道”也是一种合理反应。
这就像做选择题:如果你不知道答案,猜一下还有可能蒙对,而留空则肯定得零分。同样地,语言模型如果在不确定时选择猜测,反而可能在统计上获得更高的准确率;而诚实地说“我不知道”则会被视为失败。
在一个简单问答(SimpleQA)示例里,两种模型表面准确率接近,但错误率差异巨大:
- 模型 A:准确率略高,但错误率很高(更爱猜)
- 模型 B:准确率略低,但更常弃答,因此错误率显著更低
只看准确率,会错把“爱猜”的模型当成更好;可从用户视角,错误(自信的谎言)远比“我不确定”更糟。
OpenAI 在《Model Spec》中明确指出,模型应优先表达不确定性或请求澄清,而不是提供可能错误的信息。但在目前的主流评测中,“ abstention(放弃回答)”往往不被鼓励,甚至被忽略。
一个实例数据揭示大模型准确率和错误率的影响
以 GPT-5 System Card 中的 SimpleQA 评估为例:
从上表可以看到,如果单看模型的准确率,o4-mini比gpt-5-thinking-mini更高,但其错误率高达75%,远高于 thinking-mini 的26%。这说明,鼓励模型在不确定时猜测,虽然可能提升准确率,却会大幅增加幻觉。
大模型幻觉从何而来:预测下一个词的统计学必然
语言模型通过预测大量文本中的下一个词进行预训练。与传统机器学习不同,这个过程没有"真/假"标签,模型只能从流畅的语言示例中学习整体分布。
这就像让算法学习区分猫和狗的照片,但不给任何标签,只让它观察所有图片。更困难的是,当我们要求模型预测每只宠物的生日时——由于生日本质上是随机的,无论算法多么先进,都必然产生错误。
为什么大模型有些错误消失了,有些没有?
语言模型很少出现拼写错误或括号不匹配,但经常在事实性问题上出错。原因在于:
- 拼写和语法:遵循一致的模式,可以通过规模化学习完美掌握
- 任意的低频事实:如某个人的生日,无法从模式中预测,因此导致幻觉
下一代评估方式应如何设计?解决方案:重新定义大模型的"好成绩"
解决方案其实很直接:应对自信的错误回答施加更重的惩罚,而对表达不确定性的行为给予部分分数。这并非新概念,某些标准化考试早已对错误答案扣分,或对留空给予部分分数,以抑制盲目猜测。
OpenAI 强调,不能仅仅在边缘增加几个“考虑不确定性的测试”,而必须更新主流评估体系,从根本上去除鼓励猜测的评分机制。否则,模型仍将倾向于猜测。
三种回答类型的重新认识 对于有标准答案的问题,我们应该区分三种回答:
- 准确回答:理想状态
- 错误回答:需要严厉惩罚
- 弃权:承认不确定,应该给予部分认可
在这个框架下,错误比弃权更糟糕,谦逊比过度自信更有价值。
打破对大模型幻觉的常见误解
OpenAI 的研究从统计角度澄清了几种常见误解:
-
❌ 误解一:“只要准确率达到100%,就不会有幻觉。”
✅ 现实世界中总存在无法回答的问题,100%准确率不可能实现。 -
❌ 误解二:“幻觉是不可避免的。”
✅ 语言模型完全可以在不确定时选择弃权,幻觉是可以避免的。 -
❌ 误解三:“只有更大模型才能避免幻觉。”
✅ 小模型可能更容易了解自己的局限性。当被问及毛利语问题时,完全不懂毛利语的小模型可以直接说"我不知道",而略懂一些的模型还需要判断自己的置信度。 -
❌ 误解四:“幻觉是模型中的神秘故障。”
✅ 我们已经理解了幻觉产生和被奖励的统计机制,这不是不可解释的现象。 -
❌ 误解五:“只需设计更好的‘幻觉评测’即可。”
✅ 关键是要重构所有主流评估指标,鼓励模型表达不确定性。
解决AI幻觉问题需要整个行业的共同努力:
- 重新设计评估标准:让所有主要评估都惩罚过度自信,奖励适当的不确定性表达
- 改变开发激励:不再追求排行榜上的虚高分数,而是关注真实可靠性
- 教育用户期望:让用户理解"我不确定"比错误信息更有价值
- 持续技术创新:开发更好的不确定性估计和表达方法
结语:大模型幻觉可以降低
基于OpenAI这项重要研究,我们可以得出结论:AI幻觉问题不是技术发展的必然产物,而是评估体系设计缺陷的结果。通过重新定义什么是"好的AI表现"——从盲目追求准确率转向奖励诚实和谦逊——我们可以构建更值得信赖的AI系统。
在这个过程中,我们需要记住:承认"我不知道"不是AI的弱点,而是其可信度的体现。只有当AI学会谦逊地面对不确定性时,我们才能真正信任它们在关键决策中发挥作用。
毕竟,在现实世界中,一个诚实承认自己局限性的助手,远比一个满嘴胡言但异常自信的"专家"更有价值。
如果您对原文感兴趣,可以阅读 OpenAI 的完整论文。
我们也基于这个内容用GPT-5生成了一个单网页,欢迎大家访问:https://www.datalearner.com/llm_cookbook/why-language-models-hallucinate
