Terminal Bench 2.0

Updated Jul 17, 2026·1,508 views

Problem Count: 89
Institution: Independent
Category: AI Agent - Tool Use
Metrics: Accuracy
Language: English
Difficulty: Mixed

Overview

An upgraded terminal-environment benchmark for evaluating the tool-use and task-completion abilities of language-model agents.

Related resources

Latest Terminal Bench 2.0 model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for Terminal Bench 2.0.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	GPT-5.5 Thinking Level · HighTools	82.70	2026-04-23	Unknown	Closed
	Claude Mythos Preview Extended ThinkingTools	82.00	2026-04-07	Unknown	Closed
	GPT-5.3 Codex Thinking Level · Extra HighTools	77.30	2026-02-05	Unknown	Closed
4	GPT-5.4 Thinking Level · Extra HighTools	75.10	2026-03-05	Unknown	Closed
5	Qwen3.7-Max-Preview Thinking EnabledTools	69.70	2026-05-20	Unknown	Closed
6	Opus 4.7 Extended ThinkingTools	69.40	2026-04-16	Unknown	Closed
7	Composer 2.5 Thinking Enabled	69.30	2026-05-18	Unknown	Closed
8	Gemini 3.1 Pro Preview Thinking Level · HighTools	68.50	2026-02-20	Unknown	Closed
9	DeepSeek-V4-Pro Thinking Level · Extra HighTools	67.90	2026-04-24	1600B	Free Commercial
10	Kimi K2.6 Thinking EnabledTools	66.70	2026-04-20	1000B	Free Commercial
11	Claude Opus 4.6 Extended ThinkingTools	65.40	2026-02-05	Unknown	Closed
12	Qwen3.6-Max-Preview Deep Thinking ModeTools	65.40	2026-04-18	Unknown	Closed
13	GLM 5.1 Thinking EnabledTools	63.50	2026-03-27	75.4B	Free Commercial
14	DeepSeek-V4-Pro Thinking Level · HighTools	63.30	2026-04-24	1600B	Free Commercial
15	Composer 2 Thinking Enabled	61.70	2026-03-19	Unknown	Closed
16	Qwen 3.6 Plus Preview Thinking EnabledTools	61.60	2026-03-31	Unknown	Closed
17	Qwen3.6-Max-Preview Thinking EnabledTools	61.60	2026-04-18	Unknown	Closed
18	GLM-5 Thinking EnabledTools	61.10	2026-02-11	744B	Free Commercial
19	GPT-5.4 mini Thinking Level · Extra HighTools	60.00	2026-03-17	Unknown	Closed
20	Opus 4.5 Extended ThinkingTools	59.30	2025-11-25	Unknown	Closed
21	Qwen3.6-27B Thinking EnabledTools	59.30	2026-04-22	27B	Free Commercial
22	Claude Sonnet 4.6 Thinking EnabledTools	59.10	2026-02-17	Unknown	Closed
23	DeepSeek-V4-Pro Standard ModeTools	59.10	2026-04-24	1600B	Free Commercial
24	Muse Spark Thinking EnabledTools	59.00	2026-04-08	Unknown	Closed
25	Gemini 3.0 Pro (Preview 11-2025) Thinking Level · HighTools	56.90	2025-11-18	Unknown	Closed
26	DeepSeek-V4-Flash Thinking Level · Extra HighTools	56.90	2026-04-24	284B	Free Commercial
27	DeepSeek-V4-Flash Thinking Level · HighTools	56.60	2026-04-24	284B	Free Commercial
28	Doubao Seed 2.0 Pro Thinking EnabledTools	55.80	2026-02	Unknown	Closed
29	Gemini 3.0 Pro (Preview 11-2025) Thinking EnabledTools	54.20	2025-11-18	Unknown	Closed
30	Qwen3.5-397B-A17B Thinking EnabledTools	52.50	2026-02-16	39.7B	Free Commercial

Scroll to load 17 more

Latest Terminal Bench 2.0 model rankings and full benchmark leaderboard

Terminal Bench 2.0 Rank