SWE-bench Verified

Updated Jul 17, 2026·17,766 views

Problem Count: 500
Institution: OpenAI
Category: Coding and Software Engineering
Metrics: Accuracy
Language: English
Difficulty: Mixed

Overview

A human-validated subset of SWE-bench curated to provide more accurate and representative software-engineering tasks.

Related resources

Latest SWE-bench Verified model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for SWE-bench Verified.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

2 parallel-mode results hidden

Rank	Model				License
	Claude Fable 5 Thinking Level · HighTools	95.00	2026-06-09	Unknown	Closed
	Claude Fable 5 Deep Thinking ModeTools	95.00	2026-06-09	Unknown	Closed
	Claude Mythos Preview Extended ThinkingTools	93.90	2026-04-07	Unknown	Closed
4	Claude Opus 4.8 Extended ThinkingTools	88.60	2026-05-28	Unknown	Closed
5	Opus 4.7 Extended ThinkingTools	87.60	2026-04-16	Unknown	Closed
6	Claude Sonnet 5 Thinking Level · Extra HighTools	85.20	2026-06-30	Unknown	Closed
7	Opus 4.5 Extended ThinkingTools	80.90	2025-11-25	Unknown	Closed
8	Claude Opus 4.6 Extended ThinkingTools	80.84	2026-02-05	Unknown	Closed
9	Gemini 3.1 Pro Preview Thinking Level · HighTools	80.60	2026-02-20	Unknown	Closed
10	DeepSeek-V4-Pro Thinking Level · Extra HighTools	80.60	2026-04-24	1600B	Free Commercial
11	Qwen3.7-Max-Preview Thinking EnabledTools	80.40	2026-05-20	Unknown	Closed
12	MiniMax M2.5 Thinking EnabledTools	80.20	2026-02-12	229B	Free Commercial
13	Kimi K2.6 Thinking EnabledTools	80.20	2026-04-20	1000B	Free Commercial
14	GPT-5.2 Thinking Level · Extra HighTools	80.00	2025-12-11	Unknown	Closed
15	Claude Sonnet 4.6 Thinking Enabled	79.60	2026-02-17	Unknown	Closed
16	DeepSeek-V4-Pro Thinking Level · HighTools	79.40	2026-04-24	1600B	Free Commercial
17	DeepSeek-V4-Flash Thinking Level · Extra HighTools	79.00	2026-04-24	284B	Free Commercial
18	Qwen 3.6 Plus Preview Thinking EnabledTools	78.80	2026-03-31	Unknown	Closed
19	Qwen3.6-Max-Preview Thinking EnabledTools	78.80	2026-04-18	Unknown	Closed
20	DeepSeek-V4-Flash Thinking Level · HighTools	78.60	2026-04-24	284B	Free Commercial
21	Hy3 Thinking Level · HighTools	78.00	2026-07-06	295B	Free Commercial
22	GLM-5 Thinking Enabled	77.80	2026-02-11	744B	Free Commercial
23	Inkling Thinking EnabledTools	77.60	2026-07-15	975B	Free Commercial
24	Muse Spark Thinking EnabledTools	77.40	2026-04-08	Unknown	Closed
25	Claude Sonnet 4.5 Thinking EnabledTools	77.20	2025-09-30	Unknown	Closed
26	Qwen3.6-27B Thinking EnabledTools	77.20	2026-04-22	27B	Free Commercial
27	GPT-5.1-Codex-Max Thinking Level · HighTools	76.80	2025-11-19	Unknown	Closed
28	Kimi K2.5 Thinking EnabledTools	76.80	2026-01-27	1000B	Free Commercial

Scroll to load 81 more

Latest SWE-bench Verified model rankings and full benchmark leaderboard

SWE-bench Verified Rank