Terminal-Bench

Updated Apr 19, 2026·2,678 views

Problem Count: 100
Institution: Independent
Category: AI Agent - Tool Use
Metrics: Accuracy
Language: English
Difficulty: Mixed

Overview

A benchmark for evaluating the agentic ability of models to complete practical tasks by using tools in a terminal environment.

Related resources

Latest Terminal-Bench model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for Terminal-Bench.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	GPT-5.1-Codex-Max Thinking Level · HighTools	58.10	2025-11-19	Unknown	Closed
	GPT-5.1 Codex Thinking Level · HighTools	56.30	2025-11-14	Unknown	Closed
	Claude Sonnet 4.5 Thinking EnabledTools	50.00	2025-09-30	Unknown	Closed
4	Kimi K2 Thinking Thinking EnabledTools	47.10	2025-11-06	1040B	Free Commercial
5	Opus 4.1 Extended Thinking	46.50	2025-08-06	Unknown	Closed
6	Kimi K2 0905 Standard Mode	44.50	2025-09-05	1000B	Free Commercial
7	Kimi K2 0905 Thinking EnabledTools	44.50	2025-09-05	1000B	Free Commercial
8	GPT-5 Thinking EnabledTools	43.80	2025-08-07	Unknown	Closed
9	Opus 4.1 Extended ThinkingTools	43.30	2025-08-06	Unknown	Closed
10	Claude Sonnet 4 Deep Thinking ModeTools	41.30	2025-05-23	Unknown	Closed
11	Haiku 4.5 32KTools	41.00	2025-10-15	Unknown	Closed
12	GLM-4.6 Thinking EnabledTools	40.50	2025-09-30	355B	Free Commercial
13	Grok 4 Thinking EnabledTools	38.00	2025-07-10	Unknown	Closed
14	DeepSeek V3.2-Exp Thinking EnabledTools	37.70	2025-09-29	671B	Free Commercial
15	Kimi K2 Standard Mode	37.50	2025-07-11	1000B	Free Commercial
16	Qwen3-Coder-480B-A35B Standard Mode	37.50	2025-07-23	480B	Free Commercial
17	GLM-4.5 Thinking Enabled	37.50	2025-07-28	355B	Free Commercial
18	Claude Sonnet 4 Thinking EnabledTools	35.50	2025-05-23	Unknown	Closed
19	Qwen3-Coder-Flash Standard Mode	31.30	2025-07-31	30.5B	Free Commercial
20	DeepSeek-V3.1 Standard ModeTools	31.30	2025-08-20	671B	Free Commercial
21	OpenAI o3 Thinking Enabled	30.20	2025-04-16	Unknown	Closed
22	GLM-4.5-Air Thinking Enabled	30.00	2025-07-28	106B	Free Commercial
23	DeepSeek-V3.1 Terminus Standard ModeTools	30.00	2025-09-22	671B	Free Commercial
24	DeepSeek-V3.1 Terminus Thinking EnabledTools	28.00	2025-09-22	671B	Free Commercial
25	Claude Sonnet 4.5 Standard ModeTools	27.00	2025-09-30	Unknown	Closed
26	Claude Sonnet 4 Standard ModeTools	26.00	2025-05-23	Unknown	Closed
27	Haiku 4.5 Standard ModeTools	26.00	2025-10-15	Unknown	Closed
28	Gemini 2.5-Pro Thinking Enabled	25.30	2025-06-05	Unknown	Closed
29	MiniMax M2 Thinking EnabledTools	24.00	2025-10-27	230B	Free Commercial
30	DeepSeek V3.2-Exp Standard ModeTools	23.00	2025-09-29	671B	Free Commercial

Scroll to load 5 more

Latest Terminal-Bench model rankings and full benchmark leaderboard

Terminal-Bench Rank