IFBench:大模型指令跟随能力评测基准详解
IFBench 是一个针对大语言模型(LLM)指令跟随能力的评测基准。该基准聚焦于模型对新颖、复杂约束的泛化表现,通过 58 个可验证的单轮任务进行评估。发布于 2025 年 7 月,该基准旨在揭示模型在未见指令下的精确执行水平。目前,主流模型在该基准上的得分普遍低于 50%,显示出指令跟随的潜在局限。
现有指令跟随评测的局限
当前的大模型评测中,指令跟随能力评估面临若干挑战。首先,许多基准如 IFEval 依赖于有限的指令类型,导致模型在训练过程中容易过拟合特定模式。其次,现有的任务往往缺乏多样性和复杂性,无法覆盖真实场景中的多重约束,例如结合格式、逻辑和领域特定要求的指令。此外,评估方法多依赖人工判断,引入主观偏差,而可验证性不足使得结果难以复现。这些问题使得现有评测难以准确反映模型的泛化能力,尤其在处理出分布指令时。
IFBench 的背景与目标
IFBench 由 Allen Institute for AI(Allen AI)开发,于 2025 年 7 月 3 日通过 arXiv 论文《Generalizing Verifiable Instruction Following》正式发布。论文作者包括来自 Allen AI 的研究人员,如 Nat O. Lambert 等。该基准的开发源于对现有指令跟随评测的不足观察,旨在解决模型在面对新型、挑战性指令时的可靠性问题。具体而言,IFBench 针对以下核心问题:一是模型对未见约束的泛化不足;二是缺乏可自动验证的评估标准;三是现有基准任务的分布偏差,导致高分模型在实际应用中表现不稳。通过引入多样化的、可验证的任务,IFBench 提供了一个更严谨的框架,用于量化模型的指令执行精确度。
