Claw Bench

Updated Apr 28, 2026·955 views

Problem Count: 30
Institution: Independent
Category: OpenClaw Agent Evaluation
Metrics: Accuracy
Language: English
Difficulty: Medium

Overview

A benchmark that evaluates language models across five common categories of OpenClaw tasks.

Related resources

Latest Claw Bench model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for Claw Bench.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	GLM-5-Turbo Thinking EnabledTools	93.80	2026-03-15	Unknown	Closed
	Doubao Seed 2.0 Lite Thinking Enabled	93.10	2026-02	Unknown	Closed
	GPT-5.4 Thinking EnabledTools	92.70	2026-03-05	Unknown	Closed
4	MiniMax M2.5 Thinking EnabledTools	92.10	2026-02-12	229B	Free Commercial
5	GLM-5 Thinking EnabledTools	91.70	2026-02-11	744B	Free Commercial
6	MiniMax-M2.7 Thinking EnabledTools	91.70	2026-03-18	229B	Non-Commercial
7	Opus 4.5 Extended ThinkingTools	91.50	2025-11-25	Unknown	Closed
8	Qwen3.5-35B-A3B Thinking EnabledTools	91.40	2026-02-25	35B	Free Commercial
9	GLM-5V-Turbo Thinking EnabledTools	90.10	2026-04-01	Unknown	Closed
10	GPT-5.4 nano Thinking EnabledTools	89.70	2026-03-17	Unknown	Closed
11	Haiku 4.5 Thinking EnabledTools	89.40	2025-10-15	Unknown	Closed
12	Grok 4.1 Fast Thinking EnabledTools	88.60	2025-11-19	Unknown	Closed
13	Claude Sonnet 4.5 Thinking EnabledTools	88.10	2025-09-30	Unknown	Closed
14	Qwen3.5-122B-A10B Thinking EnabledTools	86.00	2026-02-25	122B	Free Commercial
15	Gemini 3.0 Flash Thinking EnabledTools	85.70	2025-12-17	Unknown	Closed
16	Step 3.5 Flash Thinking EnabledTools	84.90	2026-02-02	196B	Free Commercial
17	Kimi K2 Thinking Thinking EnabledTools	82.50	2025-11-06	1040B	Free Commercial
18	Kimi K2.5 Thinking EnabledTools	81.70	2026-01-27	1000B	Free Commercial
19	Kimi K2.6 Thinking EnabledTools	80.90	2026-04-20	1000B	Free Commercial
20	Gemini 2.5 Pro Experimental 03-25 Thinking EnabledTools	80.40	2025-03-25	Unknown	Closed
21	DeepSeek V3.2 Thinking EnabledTools	79.00	2025-12-01	671B	Free Commercial
22	Mistral Large 3 Thinking EnabledTools	78.60	2025-12-02	675B	Free Commercial
23	Claude Sonnet 4 Thinking EnabledTools	77.80	2025-05-23	Unknown	Closed
24	Qwen3-Coder-Next Thinking EnabledTools	75.80	2026-02-03	8B	Free Commercial
25	GPT-5.4 mini Thinking EnabledTools	75.30	2026-03-17	Unknown	Closed
26	Qwen3.5-27B Thinking EnabledTools	75.20	2026-02-25	27B	Free Commercial
27	Qwen3.6-27B Thinking EnabledTools	72.40	2026-04-22	27B	Free Commercial
28	Nova 2 Lite Thinking EnabledTools	68.50	2025-12-02	Unknown	Closed
29	ERNIE 5.0 Thinking Preview Thinking Enabled	51.00	2025-11	2400B	Closed

Latest Claw Bench model rankings and full benchmark leaderboard

Claw Bench Rank