τ²-Bench

Updated Jul 18, 2026·3,243 views

Problem Count: 2285
Institution: Independent
Category: Agent Capability
Metrics: Accuracy
Language: Chinese
Difficulty: Medium

Overview

An open benchmark for evaluating task execution and communication by language-model agents in dual-control human-agent environments.

Related resources

Latest τ²-Bench model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for τ²-Bench.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	Claude Opus 4.6 Extended ThinkingTools	91.89	2026-02-05	Unknown	Closed
	Gemini 3.1 Pro Preview Thinking Level · HighTools	90.80	2026-02-20	Unknown	Closed
	Gemini 3.0 Flash Thinking EnabledTools	90.20	2025-12-17	Unknown	Closed
4	GLM-5 Thinking EnabledTools	89.70	2026-02-11	744B	Free Commercial
5	Step 3.5 Flash Thinking EnabledTools	88.20	2026-02-02	196B	Free Commercial
6	GLM-4.7 Thinking EnabledTools	87.40	2025-12-22	358B	Free Commercial
7	Qwen3.5-397B-A17B Thinking EnabledTools	86.70	2026-02-16	39.7B	Free Commercial
8	Gemini 3.0 Pro (Preview 11-2025) Thinking EnabledTools	85.40	2025-11-18	Unknown	Closed
9	Claude Sonnet 4.5 Thinking EnabledTools	84.70	2025-09-30	Unknown	Closed
10	Grok 4.1 Fast Thinking EnabledTools	82.71	2025-11-19	Unknown	Closed
11	Qwen3-Max-Thinking Thinking EnabledTools	82.10	2026-01-26	1000B	Closed
12	GPT-5.2 Thinking Level · Extra HighTools	82.00	2025-12-11	Unknown	Closed
13	Opus 4.5 Extended ThinkingTools	81.99	2025-11-25	Unknown	Closed
14	DeepSeek V3.2 Thinking EnabledTools	80.30	2025-12-01	671B	Free Commercial
15	GPT-5 Thinking EnabledTools	80.00	2025-08-07	Unknown	Closed
16	GLM-4.7-Flash Thinking EnabledTools	79.50	2026-01-19	31B	Free Commercial
17	Qwen3.5-27B Thinking EnabledTools	79.00	2026-02-25	27B	Free Commercial
18	ERNIE 5.0 Thinking Enabled	78.79	2025-11-13	2400B	Closed
19	MiniMax M2 Thinking EnabledTools	77.20	2025-10-27	230B	Free Commercial
20	Gemma 4 31B Thinking EnabledTools	76.90	2026-04-02	30.7B	Free Commercial
21	GLM-4.6 Thinking EnabledTools	75.90	2025-09-30	355B	Free Commercial
22	Qwen3 Max (Preview) Standard ModeTools	74.00	2025-09-05	Unknown	Closed
23	Claude Opus 4 Thinking EnabledTools	72.50	2025-05-23	Unknown	Closed
24	Qwen3 Max (Preview) Thinking EnabledTools	72.00	2025-09-05	Unknown	Closed
25	Claude Sonnet 4.5 Standard ModeTools	71.00	2025-09-30	Unknown	Closed
26	Gemma 4 26B A4B Thinking EnabledTools	68.20	2026-04-02	25.2B	Free Commercial
27	DeepSeek V3.2-Exp Thinking EnabledTools	66.70	2025-09-29	671B	Free Commercial
28	Kimi K2 Standard ModeTools	64.30	2025-07-11	1000B	Free Commercial
29	Kimi K2 Thinking EnabledTools	64.30	2025-07-11	1000B	Free Commercial
30	Claude Sonnet 3.7 Thinking EnabledTools	61.80	2025-02-25	Unknown	Closed

Scroll to load 13 more

Latest τ²-Bench model rankings and full benchmark leaderboard

τ²-Bench Rank