τ²-Bench - Telecom

Updated Apr 24, 2026·1,758 views

Problem Count: 114
Institution: Independent
Category: Agent Capability
Metrics: Accuracy
Language: English
Difficulty: Medium

Overview

A telecom-domain benchmark that evaluates task execution by language-model agents in human-agent collaboration scenarios.

Related resources

Latest τ²-Bench - Telecom model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for τ²-Bench - Telecom.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	Gemini 3.1 Pro Preview Thinking Level · HighTools	99.30	2026-02-20	Unknown	Closed
	Claude Opus 4.6 Extended ThinkingTools	99.25	2026-02-05	Unknown	Closed
	GPT-5.4 Thinking Level · Extra HighTools	98.90	2026-03-05	Unknown	Closed
4	GPT-5.2 Thinking Level · Extra HighTools	98.70	2025-12-11	Unknown	Closed
5	Claude Sonnet 4.5 Thinking EnabledTools	98.00	2025-09-30	Unknown	Closed
6	Gemini 3.0 Pro (Preview 11-2025) Thinking Level · HighTools	98.00	2025-11-18	Unknown	Closed
7	GLM-5 Thinking EnabledTools	98.00	2026-02-11	744B	Free Commercial
8	GPT-5.5 Thinking Level · HighTools	98.00	2026-04-23	Unknown	Closed
9	Claude Sonnet 4.6 Thinking EnabledTools	97.90	2026-02-17	Unknown	Closed
10	MiniMax M2.5 Thinking EnabledTools	97.80	2026-02-12	229B	Free Commercial
11	GPT-5 Thinking Level · HighTools	96.70	2025-08-07	Unknown	Closed
12	GLM-4.7-Flash Thinking EnabledTools	96.00	2026-01-19	31B	Free Commercial
13	GPT-5 Thinking EnabledTools	95.80	2025-08-07	Unknown	Closed
14	GPT-5.1 Thinking Level · HighTools	95.60	2025-11-12	Unknown	Closed
15	Grok 4.1 Fast Thinking EnabledTools	94.74	2025-11-19	Unknown	Closed
16	GLM-4.7-Flash Standard ModeTools	94.00	2026-01-19	31B	Free Commercial
17	GPT-5.4 mini Thinking Level · Extra HighTools	93.40	2026-03-17	Unknown	Closed
18	Kimi K2 Thinking Thinking EnabledTools	93.00	2025-11-06	1040B	Free Commercial
19	GPT-5.4 nano Thinking Level · Extra HighTools	92.50	2026-03-17	Unknown	Closed
20	Muse Spark Thinking EnabledTools	92.00	2026-04-08	Unknown	Closed
21	Opus 4.5 Extended ThinkingTools	90.70	2025-11-25	Unknown	Closed
22	MiniMax M2 Thinking EnabledTools	87.00	2025-10-27	230B	Free Commercial
23	M2.1 Thinking EnabledTools	87.00	2025-12-23	230B	Free Commercial
24	MiniMax-M2.7 Thinking EnabledTools	85.00	2026-03-18	229B	Non-Commercial
25	Qwen3 Max (Preview) Thinking EnabledTools	84.20	2025-09-05	Unknown	Closed
26	Grok 4 Thinking EnabledTools	75.00	2025-07-10	Unknown	Closed
27	GLM-4.6 Thinking EnabledTools	71.00	2025-09-30	355B	Free Commercial
28	Kimi K2 Thinking EnabledTools	65.80	2025-07-11	1000B	Free Commercial
29	Claude Sonnet 4 Thinking EnabledTools	65.00	2025-05-23	Unknown	Closed
30	GPT-5.4 Standard ModeTools	64.30	2026-03-05	Unknown	Closed