DataLearnerAI
来源:OpenAI 研究 • DataLearnerAI 中文解读

为什么语言模型会“幻觉”?

当评测只看准确率时,模型更倾向于猜测而不是承认不确定。本页用数据与图解,说明成因与可操作对策。

作者:DataLearnerAI· · 预计阅读 3 分钟
激励错配:只看准确率

只奖答对 = 鼓励蒙对。长期训练与榜单环境塑造了“会猜”的模型。

更好的计分:惩错奖“未知”

对自信错误加大成本;对合理弃答/不确定给部分分,抑制盲猜。

统计来源:下一词预测

高频规则(拼写/括号)易学;低频任意事实难学 → 产生幻觉。

“准确/错误/弃答” 三分法对比

错误(自信答错)往往比“我不确定”更有害。只看准确率会掩盖风险。

准确
错误
弃答

gpt‑5‑thinking‑mini

更谨慎,错误率更低(更常弃答)

准确22%
错误26%
弃答52%

OpenAI o4‑mini

准确率略高,但自信错误多(偏向猜测)

准确24%
错误75%
弃答1%

评测改造清单

Scoreboard
  • 主分数纳入:准确/错误/弃答(错误权重大)
  • 对自信错误进行负分或成本加权
  • 允许并奖励合适的“我不确定/需要澄清”
  • 报告校准指标(如 ECE),而非只看准确率

模型与产品实践

Playbook
  • 低置信度时先检索或追问,不直接生成
  • 设置拒答阈值/拒答头,优化温度与阈值
  • 高风险领域设置人工复核闭环
  • 提示词中明确允许“拒答/澄清/引用来源”

常见问题

提高准确率就能消灭幻觉吗?

不能。现实任务中存在信息缺失与歧义,准确率长期难以达到 100%。应当降低自信错误并提升不确定性表达。

为何“弃答”有价值?

弃答代表模型已识别低置信度,避免误导性答案;在成本敏感评测中应获得部分分。

如何在产品中落地?

低置信度改走检索/澄清链路;设置拒答阈值;高风险场景加入人工复核;记录并回灌自信错误。

来源与页面信息

来源

本文由 DataLearnerAI 基于 OpenAI 的研究/系统卡整理与中文解读。

网站与 Canonical

原博客地址:https://www.datalearner.com/blog/1051757097501678

关键词

大模型语言模型幻觉准确率错误率弃答校准评测OpenAI 研究