加载中...
加载中...
为了解决大模型的Agent操作依赖交互和人工处理这个问题,普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench(Tau-Squared Benchmark),并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。 它是对早期 τ-Bench 的扩展版本,旨在建立一种标准化方法,评估智能体在与用户共同作用于环境时的表现。
面向电信领域的用于评估大模型在人机协同场景下的任务执行能力
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | GPT-5.2thinking + 使用工具 | 98.7 | 2025-12-11 | 未知 |
| 2 | Claude Sonnet 4.5thinking + 使用工具 | 98 | 2025-09-30 | 未知 |
| 3 | Gemini 3.0 Pro (Preview 11-2025)thinking + 使用工具 | 98 | 2025-11-18 | 未知 |
| 4 | GPT-5high + 使用工具 | 96.7 | 2025-08-07 | 未知 |
| 5 | GPT-5thinking + 使用工具 | 95.8 | 2025-08-07 | 未知 |
| 6 | GPT-5.1high + 使用工具 | 95.6 | 2025-11-12 | 未知 |
| 7 | Grok 4.1 Fastthinking + 使用工具 | 94.74 | 2025-11-19 | 未知 |
| 8 | Kimi K2 Thinkingthinking + 使用工具 | 93 | 2025-11-06 | 10400 |
| 9 | Claude Opus 4.5thinking + 使用工具 | 90.7 | 2025-11-25 | 未知 |
| 10 | MiniMax M2thinking + 使用工具 | 87 | 2025-10-27 | 2300 |
| 11 | M2.1thinking + 使用工具 | 87 | 2025-12-23 | 2300 |
| 12 | Qwen3 Maxthinking + 使用工具 | 84.2 | 2025-09-05 | 未知 |
| 13 | Grok 4thinking + 使用工具 | 75 | 2025-07-10 | 未知 |
| 14 | GLM-4.6thinking + 使用工具 | 71 | 2025-09-30 | 3550 |
| 15 | Kimi K2thinking + 使用工具 | 65.8 | 2025-07-11 | 10000 |
| 16 | Gemini 2.5-Prothinking + 使用工具 | 54 | 2025-06-05 | 未知 |
| 17 | OpenAI o4 - minithinking + 使用工具 | 50.2 | 2025-04-16 | 未知 |
| 18 | DeepSeek V3.2-Expnormal + 使用工具 | 34 | 2025-09-29 | 6710 |
| 19 | DeepSeek V3.2-Expthinking + 使用工具 | 34 | 2025-09-29 | 6710 |