如何评估大模型的Agent能力?τ²-Bench:评估双控对话智能体的新标准
在对话式人工智能(Conversational AI)的发展中,评测体系的重要性与模型能力同等关键。
从早期的问答模型到如今能够执行任务的智能体(agent),研究者一直希望找到一种可以客观反映模型“真实可用性”的标准。

然而,现实应用与传统评测之间存在明显脱节:在很多实际场景中,人类用户本身也具备操作能力,而智能体往往需要指导人完成任务。这类“双控”情境,是当前评测体系普遍缺乏的部分。
为了解决这个问题,普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench(Tau-Squared Benchmark),并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。
它是对早期 τ-Bench 的扩展版本,旨在建立一种标准化方法,评估智能体在与用户共同作用于环境时的表现。
关于大模型在τ²-Bench得分数据参考DataLearnerAI的大模型评测基准结果:https://www.datalearner.com/benchmarks/Tau-Squared-Benchmark
一、现有评测的局限
当前主流智能体评测大多假设“单控环境”:智能体拥有全部工具和操作权限,而用户只负责提问或输入文字。
这种设定便于量化模型的推理和调用能力,但也造成几个现实偏差:
- 用户始终是被动方,评测无法体现模型的“指导”能力;
- 当任务失败时,很难区分是模型推理错误,还是交互沟通失败;
- 任务通常单一且静态,不符合现实服务场景中的多步骤协作过程。
这意味着,如果一个模型在单控评测中得分很高,也不一定能在真实环境中引导用户完成复杂任务。τ²-Bench 的核心目标,就是在“人和模型共同操作”的情境中建立一套可量化的标准。
二、τ²-Bench 的设计与目标
τ²-Bench 将任务建模为一个双参与者环境:
- 智能体(agent)负责理解问题、规划策略、调用工具;
- 用户(由模拟器代表)可以执行部分操作,也能影响环境状态。
两者轮流执行动作,并通过自然语言沟通,直到任务被判定成功或失败。
这一框架形式化为“去中心化部分可观马尔可夫决策过程(Dec-POMDP)”,即每个参与者都只能看到环境的一部分信息,需要通过协作达成目标。
研究团队的设计目标主要包括:
- 让评测更加贴近真实服务交互;
- 明确区分推理错误与沟通错误;
- 自动生成多样任务并可程序化验证;
- 支持多种运行模式,分析模型在不同协作条件下的表现。
三、四个评测领域与任务构造
τ²-Bench 当前包含四个领域(domain),覆盖从简单指令到复杂客服场景的不同交互类型。
Mock(虚拟环境)
这是最基础的领域,用于快速验证模型的指令理解与行动逻辑。任务较简单,例如在一个虚拟环境中修改参数或完成基础操作。Airline(航空服务)
模拟旅客与航空客服之间的交互。智能体需要帮助用户完成改签、选座、取消订单等操作。这些任务通常涉及多个步骤和依赖信息(如航班号、票号等)。Retail(零售客服)
对话围绕网购和售后场景展开。任务包括退货、补发、查询库存等。模型需理解多轮对话上下文并指导用户操作系统或确认商品信息。Telecom(电信技术支持)
这是 τ²-Bench 新增的重点领域,也是首次引入“双控操作”。
在这一场景中,用户与智能体共享对设备或账户的控制权。
例如,智能体可能指导用户关闭飞行模式、重启网络设置或更新账户信息,而用户的执行行为会影响任务是否完成。
该领域的任务最接近现实世界的技术支持流程,对模型的指导与协调能力要求最高。
这些任务均由系统的可组合任务生成器自动生成。生成器以“原子任务”为基础,通过组合不同的目标与条件构造复杂场景。每个任务都带有验证逻辑,系统能自动判断成功与失败,从而保证评测的一致性和可重复性。
四、用户模拟器与评测模式
为了保证评测的可控性,τ²-Bench 使用了一个受限用户模拟器来扮演用户。
它能够执行有限的工具调用,例如“重启设备”或“取消预订”,但不会自行规划,只响应智能体的指令。
研究者设定了合理的错误率,使模拟用户在执行过程中可能出现误操作或误解,从而反映智能体的容错与引导能力。
τ²-Bench 提供三种运行模式,用于拆解模型能力:
- Default 模式:智能体与用户交替执行操作,是最完整的评测方式;
- No-User 模式:用户的工具权限全部交由智能体控制,用于测试模型在没有协作负担时的纯推理能力;
- Oracle-Plan 模式:系统向智能体提供完整的操作计划,模型只需指导用户执行,用于分析纯交互环节。
通过对比三种模式下的结果,可以分别评估模型在推理、协调和执行方面的瓶颈。
五、评测指标与流程
τ²-Bench 的主要评测指标包括:
- pass¹:单次任务成功率;
- passᵏ:多次独立运行中成功的概率,用于衡量稳定性;
- 错误分解:区分推理错误与交互错误;
- 复杂度分析:评估任务步骤增加时成功率的变化趋势。
在实际测试中,研究者通常为每个领域生成若干任务,运行多轮模拟,记录智能体的对话、工具调用与状态变化。
整个过程可通过命令行工具运行,例如:
tau2 run --domain telecom --agent-llm gpt-4.1 --user-llm gpt-4.1 --num-tasks 10
系统会自动保存结果轨迹,计算成功率并生成分析报告。
六、实验结果与观察
研究团队在 τ²-Bench 上评测了多种主流模型,包括 GPT-4.1、o4-mini、Claude-3.7-Sonnet 等。
实验表明,模型在“双控环境”下的表现明显下降:
- 在 Telecom 域 Default 模式下,GPT-4.1 的成功率约为 34%;
- 同一模型在 Retail 域为 74%,在 Airline 域为 56%;
- 当切换到 No-User 模式,即模型独自执行所有操作时,GPT-4.1 的成功率上升至约 52%,说明交互环节是主要瓶颈。
此外,研究者发现任务复杂度与成功率成反比:步骤越多、子任务越多,模型失败的概率越高。
即使在提供完整操作计划的 Oracle 模式下,模型仍会出现指导错误或沟通不一致的问题。
这表明,当前大模型在“合作执行任务”上的表现仍不稳定。
七、总结与展望
τ²-Bench 的贡献在于,它首次系统性地引入了“双控交互”的评测框架,让模型不仅要“自己能做”,还要“能带人一起做”。
这种设定让评测更贴近现实,也暴露了当前智能体在沟通、指导、协调方面的不足。
未来的研究方向包括:
- 扩展更多应用领域,如智能家居或医疗咨询;
- 提升用户模拟器的行为多样性,甚至引入真人用户测试;
- 研究模型在多用户协作或动态环境下的适应能力。
τ²-Bench 不仅是一个新的评测集,也是一种方法论转变:
它推动研究者从“任务正确率”转向“协作成功率”,从而更真实地衡量智能体在真实世界中的实用价值。
关于大模型在τ²-Bench得分数据参考DataLearnerAI的大模型评测基准结果:https://www.datalearner.com/benchmarks/Tau-Squared-Benchmark