加载中...
加载中...
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

在对话式人工智能(Conversational AI)的发展中,评测体系的重要性与模型能力同等关键。
从早期的问答模型到如今能够执行任务的智能体(agent),研究者一直希望找到一种可以客观反映模型“真实可用性”的标准。

然而,现实应用与传统评测之间存在明显脱节:在很多实际场景中,人类用户本身也具备操作能力,而智能体往往需要指导人完成任务。这类“双控”情境,是当前评测体系普遍缺乏的部分。
为了解决这个问题,普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench(Tau-Squared Benchmark),并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。 它是对早期 τ-Bench 的扩展版本,旨在建立一种标准化方法,评估智能体在与用户共同作用于环境时的表现。
关于大模型在τ²-Bench得分数据参考DataLearnerAI的大模型评测基准结果:https://www.datalearner.com/benchmarks/Tau-Squared-Benchmark
当前主流智能体评测大多假设“单控环境”:智能体拥有全部工具和操作权限,而用户只负责提问或输入文字。 这种设定便于量化模型的推理和调用能力,但也造成几个现实偏差:
这意味着,如果一个模型在单控评测中得分很高,也不一定能在真实环境中引导用户完成复杂任务。τ²-Bench 的核心目标,就是在“人和模型共同操作”的情境中建立一套可量化的标准。
τ²-Bench 将任务建模为一个双参与者环境:
两者轮流执行动作,并通过自然语言沟通,直到任务被判定成功或失败。 这一框架形式化为“去中心化部分可观马尔可夫决策过程(Dec-POMDP)”,即每个参与者都只能看到环境的一部分信息,需要通过协作达成目标。
研究团队的设计目标主要包括:
τ²-Bench 当前包含四个领域(domain),覆盖从简单指令到复杂客服场景的不同交互类型。
Mock(虚拟环境) 这是最基础的领域,用于快速验证模型的指令理解与行动逻辑。任务较简单,例如在一个虚拟环境中修改参数或完成基础操作。
Airline(航空服务) 模拟旅客与航空客服之间的交互。智能体需要帮助用户完成改签、选座、取消订单等操作。这些任务通常涉及多个步骤和依赖信息(如航班号、票号等)。
Retail(零售客服) 对话围绕网购和售后场景展开。任务包括退货、补发、查询库存等。模型需理解多轮对话上下文并指导用户操作系统或确认商品信息。
Telecom(电信技术支持) 这是 τ²-Bench 新增的重点领域,也是首次引入“双控操作”。 在这一场景中,用户与智能体共享对设备或账户的控制权。 例如,智能体可能指导用户关闭飞行模式、重启网络设置或更新账户信息,而用户的执行行为会影响任务是否完成。 该领域的任务最接近现实世界的技术支持流程,对模型的指导与协调能力要求最高。
这些任务均由系统的可组合任务生成器自动生成。生成器以“原子任务”为基础,通过组合不同的目标与条件构造复杂场景。每个任务都带有验证逻辑,系统能自动判断成功与失败,从而保证评测的一致性和可重复性。
为了保证评测的可控性,τ²-Bench 使用了一个受限用户模拟器来扮演用户。 它能够执行有限的工具调用,例如“重启设备”或“取消预订”,但不会自行规划,只响应智能体的指令。 研究者设定了合理的错误率,使模拟用户在执行过程中可能出现误操作或误解,从而反映智能体的容错与引导能力。
τ²-Bench 提供三种运行模式,用于拆解模型能力:
通过对比三种模式下的结果,可以分别评估模型在推理、协调和执行方面的瓶颈。
τ²-Bench 的主要评测指标包括:
在实际测试中,研究者通常为每个领域生成若干任务,运行多轮模拟,记录智能体的对话、工具调用与状态变化。 整个过程可通过命令行工具运行,例如:
tau2 run --domain telecom --agent-llm gpt-4.1 --user-llm gpt-4.1 --num-tasks 10
系统会自动保存结果轨迹,计算成功率并生成分析报告。
研究团队在 τ²-Bench 上评测了多种主流模型,包括 GPT-4.1、o4-mini、Claude-3.7-Sonnet 等。 实验表明,模型在“双控环境”下的表现明显下降:
此外,研究者发现任务复杂度与成功率成反比:步骤越多、子任务越多,模型失败的概率越高。 即使在提供完整操作计划的 Oracle 模式下,模型仍会出现指导错误或沟通不一致的问题。 这表明,当前大模型在“合作执行任务”上的表现仍不稳定。
τ²-Bench 的贡献在于,它首次系统性地引入了“双控交互”的评测框架,让模型不仅要“自己能做”,还要“能带人一起做”。 这种设定让评测更贴近现实,也暴露了当前智能体在沟通、指导、协调方面的不足。
未来的研究方向包括:
τ²-Bench 不仅是一个新的评测集,也是一种方法论转变: 它推动研究者从“任务正确率”转向“协作成功率”,从而更真实地衡量智能体在真实世界中的实用价值。
关于大模型在τ²-Bench得分数据参考DataLearnerAI的大模型评测基准结果:https://www.datalearner.com/benchmarks/Tau-Squared-Benchmark