标签

「指令跟随评测」相关文章

汇总「指令跟随评测」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#指令跟随评测

IFBench：大模型指令跟随能力评测基准详解

IFBench 是一个针对大语言模型（LLM）指令跟随能力的评测基准。该基准聚焦于模型对新颖、复杂约束的泛化表现，通过 58 个可验证的单轮任务进行评估。发布于 2025 年 7 月，该基准旨在揭示模型在未见指令下的精确执行水平。目前，主流模型在该基准上的得分普遍低于 50%，显示出指令跟随的潜在局限。

2025/11/03 10:04:32998

#大模型评测 #大模型评测基准