如何评估大模型的Agent能力?τ²-Bench:评估双控对话智能体的新标准
在对话式人工智能(Conversational AI)的发展中,评测体系的重要性与模型能力同等关键。
从早期的问答模型到如今能够执行任务的智能体(agent),研究者一直希望找到一种可以客观反映模型“真实可用性”的标准。

然而,现实应用与传统评测之间存在明显脱节:在很多实际场景中,人类用户本身也具备操作能力,而智能体往往需要指导人完成任务。这类“双控”情境,是当前评测体系普遍缺乏的部分。
为了解决这个问题,普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 ,并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。 它是对早期 的扩展版本,旨在建立一种标准化方法,评估智能体在与用户时的表现。
