如何评估大模型的Agent能力？τ²-Bench：评估双控对话智能体的新标准

在对话式人工智能（Conversational AI）的发展中，评测体系的重要性与模型能力同等关键。

从早期的问答模型到如今能够执行任务的智能体（agent），研究者一直希望找到一种可以客观反映模型“真实可用性”的标准。

然而，现实应用与传统评测之间存在明显脱节：在很多实际场景中，人类用户本身也具备操作能力，而智能体往往需要指导人完成任务。这类“双控”情境，是当前评测体系普遍缺乏的部分。

为了解决这个问题，普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench（Tau-Squared Benchmark），并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。
它是对早期 τ-Bench 的扩展版本，旨在建立一种标准化方法，评估智能体在与用户共同作用于环境时的表现。

关于大模型在τ²-Bench得分数据参考DataLearnerAI的大模型评测基准结果：https://www.datalearner.com/benchmarks/Tau-Squared-Benchmark

一、现有评测的局限

当前主流智能体评测大多假设“单控环境”：智能体拥有全部工具和操作权限，而用户只负责提问或输入文字。
这种设定便于量化模型的推理和调用能力，但也造成几个现实偏差：

用户始终是被动方，评测无法体现模型的“指导”能力；
当任务失败时，很难区分是模型推理错误，还是交互沟通失败；
任务通常单一且静态，不符合现实服务场景中的多步骤协作过程。

这意味着，如果一个模型在单控评测中得分很高，也不一定能在真实环境中引导用户完成复杂任务。τ²-Bench 的核心目标，就是在“人和模型共同操作”的情境中建立一套可量化的标准。

二、τ²-Bench 的设计与目标

τ²-Bench 将任务建模为一个双参与者环境：

智能体（agent）负责理解问题、规划策略、调用工具；
用户（由模拟器代表）可以执行部分操作，也能影响环境状态。

两者轮流执行动作，并通过自然语言沟通，直到任务被判定成功或失败。
这一框架形式化为“去中心化部分可观马尔可夫决策过程（Dec-POMDP）”，即每个参与者都只能看到环境的一部分信息，需要通过协作达成目标。

研究团队的设计目标主要包括：

让评测更加贴近真实服务交互；
明确区分推理错误与沟通错误；
自动生成多样任务并可程序化验证；
支持多种运行模式，分析模型在不同协作条件下的表现。

三、四个评测领域与任务构造

τ²-Bench 当前包含四个领域（domain），覆盖从简单指令到复杂客服场景的不同交互类型。

Mock（虚拟环境）
这是最基础的领域，用于快速验证模型的指令理解与行动逻辑。任务较简单，例如在一个虚拟环境中修改参数或完成基础操作。
Airline（航空服务）
模拟旅客与航空客服之间的交互。智能体需要帮助用户完成改签、选座、取消订单等操作。这些任务通常涉及多个步骤和依赖信息（如航班号、票号等）。
Retail（零售客服）
对话围绕网购和售后场景展开。任务包括退货、补发、查询库存等。模型需理解多轮对话上下文并指导用户操作系统或确认商品信息。
Telecom（电信技术支持）
这是 τ²-Bench 新增的重点领域，也是首次引入“双控操作”。
在这一场景中，用户与智能体共享对设备或账户的控制权。
例如，智能体可能指导用户关闭飞行模式、重启网络设置或更新账户信息，而用户的执行行为会影响任务是否完成。
该领域的任务最接近现实世界的技术支持流程，对模型的指导与协调能力要求最高。

这些任务均由系统的可组合任务生成器自动生成。生成器以“原子任务”为基础，通过组合不同的目标与条件构造复杂场景。每个任务都带有验证逻辑，系统能自动判断成功与失败，从而保证评测的一致性和可重复性。

四、用户模拟器与评测模式

为了保证评测的可控性，τ²-Bench 使用了一个受限用户模拟器来扮演用户。
它能够执行有限的工具调用，例如“重启设备”或“取消预订”，但不会自行规划，只响应智能体的指令。
研究者设定了合理的错误率，使模拟用户在执行过程中可能出现误操作或误解，从而反映智能体的容错与引导能力。

τ²-Bench 提供三种运行模式，用于拆解模型能力：

Default 模式：智能体与用户交替执行操作，是最完整的评测方式；
No-User 模式：用户的工具权限全部交由智能体控制，用于测试模型在没有协作负担时的纯推理能力；
Oracle-Plan 模式：系统向智能体提供完整的操作计划，模型只需指导用户执行，用于分析纯交互环节。

通过对比三种模式下的结果，可以分别评估模型在推理、协调和执行方面的瓶颈。

五、评测指标与流程

τ²-Bench 的主要评测指标包括：

pass¹：单次任务成功率；
passᵏ：多次独立运行中成功的概率，用于衡量稳定性；
错误分解：区分推理错误与交互错误；
复杂度分析：评估任务步骤增加时成功率的变化趋势。

在实际测试中，研究者通常为每个领域生成若干任务，运行多轮模拟，记录智能体的对话、工具调用与状态变化。
整个过程可通过命令行工具运行，例如：

tau2 run --domain telecom --agent-llm gpt-4.1 --user-llm gpt-4.1 --num-tasks 10

系统会自动保存结果轨迹，计算成功率并生成分析报告。

六、实验结果与观察

研究团队在 τ²-Bench 上评测了多种主流模型，包括 GPT-4.1、o4-mini、Claude-3.7-Sonnet 等。
实验表明，模型在“双控环境”下的表现明显下降：

在 Telecom 域 Default 模式下，GPT-4.1 的成功率约为 34%；
同一模型在 Retail 域为 74%，在 Airline 域为 56%；
当切换到 No-User 模式，即模型独自执行所有操作时，GPT-4.1 的成功率上升至约 52%，说明交互环节是主要瓶颈。

此外，研究者发现任务复杂度与成功率成反比：步骤越多、子任务越多，模型失败的概率越高。
即使在提供完整操作计划的 Oracle 模式下，模型仍会出现指导错误或沟通不一致的问题。
这表明，当前大模型在“合作执行任务”上的表现仍不稳定。

七、总结与展望

τ²-Bench 的贡献在于，它首次系统性地引入了“双控交互”的评测框架，让模型不仅要“自己能做”，还要“能带人一起做”。
这种设定让评测更贴近现实，也暴露了当前智能体在沟通、指导、协调方面的不足。

未来的研究方向包括：

扩展更多应用领域，如智能家居或医疗咨询；
提升用户模拟器的行为多样性，甚至引入真人用户测试；
研究模型在多用户协作或动态环境下的适应能力。

τ²-Bench 不仅是一个新的评测集，也是一种方法论转变：
它推动研究者从“任务正确率”转向“协作成功率”，从而更真实地衡量智能体在真实世界中的实用价值。