SWE-Bench Pro - Public

Updated Jul 17, 2026·12,429 views

Problem Count: 731
Institution: Scale AI
Category: Coding and Software Engineering
Metrics: Accuracy
Language: English
Difficulty: Mixed

Overview

A public benchmark for evaluating whether models can solve realistic, complex software-engineering tasks.

Related resources

Latest SWE-Bench Pro - Public model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for SWE-Bench Pro - Public.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	Claude Fable 5 Deep Thinking ModeTools	80.30	2026-06-09	Unknown	Closed
	Claude Mythos Preview Extended ThinkingTools	77.80	2026-04-07	Unknown	Closed
	Claude Opus 4.8 Extended ThinkingTools	69.20	2026-05-28	Unknown	Closed
4	Grok 4.5 Thinking Level · HighTools	64.70	2026-07-08	Unknown	Closed
5	GPT-5.6 Sol Thinking Level · Extra HighTools	64.60	2026-06-26	Unknown	Closed
6	Opus 4.7 Extended ThinkingTools	64.30	2026-04-16	Unknown	Closed
7	GLM-5.2 Thinking EnabledTools	62.10	2026-06-13	753.3B	Free Commercial
8	Muse Spark 1.1 Thinking EnabledTools	61.50	2026-07-09	Unknown	Closed
9	Qwen3.7-Max-Preview Thinking EnabledTools	60.60	2026-05-20	Unknown	Closed
10	MiniMax M3 Thinking EnabledTools	59.00	2026-06-01	428B	Non-Commercial
11	GPT-5.5 Thinking Level · HighTools	58.60	2026-04-23	Unknown	Closed
12	Kimi K2.6 Thinking EnabledTools	58.60	2026-04-20	1000B	Free Commercial
13	GLM 5.1 Thinking EnabledTools	58.40	2026-03-27	75.4B	Free Commercial
14	Hy3 Thinking Level · HighTools	57.90	2026-07-06	295B	Free Commercial
15	GPT-5.4 Thinking Level · Extra High	57.70	2026-03-05	Unknown	Closed
16	Qwen3.6-Max-Preview Deep Thinking ModeTools	57.30	2026-04-18	Unknown	Closed
17	GPT-5.3 Codex Standard Mode	56.80	2026-02-05	Unknown	Closed
18	Qwen 3.6 Plus Preview Thinking EnabledTools	56.60	2026-03-31	Unknown	Closed
19	Qwen 3.6 Plus Preview Thinking Enabled	56.60	2026-03-31	Unknown	Closed
20	Qwen3.6-Max-Preview Thinking EnabledTools	56.60	2026-04-18	Unknown	Closed
21	Step 3.7 Flash Thinking EnabledTools	56.30	2026-05-29	198B	Free Commercial
22	MiniMax-M2.7 Thinking EnabledTools	56.20	2026-03-18	229B	Non-Commercial
23	GPT-5.2 Thinking Level · Extra HighTools	55.60	2025-12-11	Unknown	Closed
24	MiniMax M2.5 Thinking EnabledTools	55.40	2026-02-12	229B	Free Commercial
25	DeepSeek-V4-Pro Thinking Level · Extra HighTools	55.40	2026-04-24	1600B	Free Commercial
26	Gemini 3.5 Flash Thinking Level · HighTools	55.10	2026-06-20	Unknown	Closed
27	GPT-5.4 mini Thinking Level · Extra HighTools	54.40	2026-03-17	Unknown	Closed
28	DeepSeek-V4-Pro Thinking Level · HighTools	54.40	2026-04-24	1600B	Free Commercial
29	Inkling Thinking EnabledTools	54.30	2026-07-15	975B	Free Commercial
30	Gemini 3.1 Pro Preview Thinking Level · HighTools	54.20	2026-02-20	Unknown	Closed

Scroll to load 21 more

Latest SWE-Bench Pro - Public model rankings and full benchmark leaderboard

SWE-Bench Pro - Public Rank