激励错配:只看准确率
只奖答对 = 鼓励蒙对。长期训练与榜单环境塑造了“会猜”的模型。
当评测只看准确率时,模型更倾向于猜测而不是承认不确定。本页用数据与图解,说明成因与可操作对策。
只奖答对 = 鼓励蒙对。长期训练与榜单环境塑造了“会猜”的模型。
对自信错误加大成本;对合理弃答/不确定给部分分,抑制盲猜。
高频规则(拼写/括号)易学;低频任意事实难学 → 产生幻觉。
错误(自信答错)往往比“我不确定”更有害。只看准确率会掩盖风险。
更谨慎,错误率更低(更常弃答)
准确率略高,但自信错误多(偏向猜测)
不能。现实任务中存在信息缺失与歧义,准确率长期难以达到 100%。应当降低自信错误并提升不确定性表达。
弃答代表模型已识别低置信度,避免误导性答案;在成本敏感评测中应获得部分分。
低置信度改走检索/澄清链路;设置拒答阈值;高风险场景加入人工复核;记录并回灌自信错误。
本文由 DataLearnerAI 基于 OpenAI 的研究/系统卡整理与中文解读。