Terminal Bench Hard

Updated Apr 19, 2026·1,821 views

Problem Count: 47
Institution: Independent
Category: Agent Capability
Metrics: Accuracy
Language: English
Difficulty: Mixed

Overview

An Artificial Analysis benchmark variant focused on difficult tool-use tasks in terminal environments.

Related resources

Latest Terminal Bench Hard model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for Terminal Bench Hard.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	Opus 4.5 Extended ThinkingTools	44.00	2025-11-25	Unknown	Closed
	GPT-5.1 Thinking Level · HighTools	43.00	2025-11-12	Unknown	Closed
	GLM-5 Thinking EnabledTools	43.00	2026-02-11	744B	Free Commercial
4	Gemini 3.0 Pro (Preview 11-2025) Thinking Level · HighTools	42.00	2025-11-18	Unknown	Closed
5	Gemini 3.0 Pro (Preview 11-2025) Thinking EnabledTools	39.00	2025-11-18	Unknown	Closed
6	MiniMax-M2.7 Thinking EnabledTools	39.00	2026-03-18	229B	Non-Commercial
7	GLM-4.7 Thinking EnabledTools	33.30	2025-12-22	358B	Free Commercial
8	Claude Sonnet 4.5 Thinking EnabledTools	33.00	2025-09-30	Unknown	Closed
9	Opus 4.1 Extended ThinkingTools	32.00	2025-08-06	Unknown	Closed
10	GLM-4.7-Flash Thinking EnabledTools	32.00	2026-01-19	31B	Free Commercial
11	GLM-4.7-Flash Standard ModeTools	30.00	2026-01-19	31B	Free Commercial
12	Gemini 2.5-Pro Thinking EnabledTools	25.00	2025-06-05	Unknown	Closed
13	Claude Sonnet 3.7 Thinking EnabledTools	21.00	2025-02-25	Unknown	Closed

Latest Terminal Bench Hard model rankings and full benchmark leaderboard

Terminal Bench Hard Rank