DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Back to benchmark list
  2. /
  3. τ²-Bench - Telecom

τ²-Bench - Telecom 评测基准详情

为了解决大模型的Agent操作依赖交互和人工处理这个问题,普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench(Tau-Squared Benchmark),并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。 它是对早期 τ-Bench 的扩展版本,旨在建立一种标准化方法,评估智能体在与用户共同作用于环境时的表现。

更新2026-03-09
Views834
问题数量
114
发布机构
个人
评测类别
Agent能力评测
评测指标
Accuracy
支持语言
英文
难度等级
中等难度

简介

面向电信领域的用于评估大模型在人机协同场景下的任务执行能力

相关资源

查看原始论文
阅读学术论文原文
获取数据集
下载评测数据集
访问官网
浏览项目官方网站
DataLearner 介绍
中文详细解读

τ²-Bench - Telecom Model Score Leaderboard

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

详细评测数据

No parallel thinking results available

τ²-Bench - Telecom详细排名数据表格

排名模型
1
Claude Opus 4.6default
99.32026-02-05未知
2
Gemini 3.1 Pro Previewdefault
99.32026-02-20未知
3
Claude Opus 4.6深度思考模式(工具)
99.252026-02-05未知
4
GPT-5.4极高强度思考(工具)
98.92026-03-05未知
5
GPT-5.2default
98.72025-12-11未知
6
GPT-5.2极高强度思考(工具)
98.72025-12-11未知
7
Claude Sonnet 4.5default
982025-09-30未知
8
Gemini 3.0 Pro (Preview 11-2025)default
982025-11-18未知
9
GLM-5default
982026-02-117440
10
Claude Sonnet 4.6default
97.92026-02-17未知
11
MiniMax M2.5default
97.82026-02-122290
12
GPT-5default
96.72025-08-07未知
13
GLM-4.7-Flashdefault
962026-01-19310
14
GPT-5default
95.82025-08-07未知
15
GPT-5.1default
95.62025-11-12未知
16
GPT-5.1思考模式 High(工具)
95.62025-11-12未知
17
Grok 4.1 Fastdefault
94.742025-11-19未知
18
GLM-4.7-Flashdefault
942026-01-19310
19
Kimi K2 Thinkingdefault
932025-11-0610400
20
Claude Opus 4.5default
90.72025-11-25未知
21
MiniMax M2default
872025-10-272300
22
M2.1default
872025-12-232300
23
Claude Opus 4.6default
852026-02-05未知
24
Qwen3 Max (Preview)default
84.22025-09-05未知
25
Grok 4default
752025-07-10未知
26
GLM-4.6default
712025-09-303550
27
Kimi K2default
65.82025-07-1110000
28
Claude Sonnet 4default
652025-05-23未知
29
GPT-5.4常规模式(工具)
64.32026-03-05未知
30
Claude Sonnet 3.7default
552025-02-25未知
将鼠标移至此处继续加载剩余 4 条