LLM Coding Benchmark Leaderboard

Name: LLM Coding Benchmark Leaderboard
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

This page provides the LLM coding benchmark leaderboard, covering SWE-Bench Verified, SWE-Bench Pro, LiveCodeBench, and SWE-bench Multilingual datasets, comparing GPT, Claude, Qwen, and DeepSeek models.

Updated on 2026-05-21 22:14:17

As of 2026-05, this page covers SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual and related benchmarks for LLM Coding Benchmark Leaderboard, making it straightforward to compare within the same task family.

Click any model name to check context length, licensing, and pricing on its detail page. See Data Methodology for scoring details.

Reference: Composite Coding Rankings

There is no single, universally accepted coding leaderboard. Static benchmarks like SWE-bench and HumanEval measure specific skills but can be gamed through targeted fine-tuning. We selected two complementary human-preference leaderboards: LMArena Coding Arena ranks models on general programming tasks (debugging, algorithms, code generation) via anonymous crowd-sourced voting; DesignArena Code Category focuses specifically on visual, front-end code generation (websites, UI components, games) using the same blind-voting methodology. Reading both together gives a fuller picture of coding capability.

LMArena Coding Arena

Full ranking

Elo ratings from anonymous A/B voting on real general coding tasks (debugging, algorithms, code generation) submitted by developers.

Updated 2026-05-14

#ModelElo

Opus 4.7 (thinking)Anthropic

1563

Opus 4.7Anthropic

1551

Claude Opus 4.6 (thinking)Anthropic

1550

Claude Opus 4.6Anthropic

1549

Claude Opus 4 (thinking-32k)Anthropic

1531

Muse SparkFacebook AI研究实验室

1530

GPT-5.4 (high)OpenAI

1527

智

GLM 5.1智谱AI

1527

Gemini 3.1 Pro PreviewGoogle Deep Mind

1526

Claude Sonnet 4.6Anthropic

1522

Benchmark

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

More Benchmarks

Model Size:All 3B and below 7B

Top picks

Ranked by SWE-bench Multilingual

Current SOTA

Qwen3.7-Max-Preview

阿里巴巴

78.30SWE-bench Multilingual

View model

Best Open-Source

No qualifying model on this benchmark.

Best China-Made

Qwen3.6-Max-Preview

阿里巴巴

73.80SWE-bench Multilingual−4.50

View model

LLM Performance Results

Data source: DataLearnerAI

Click any row to open the model page. Tick the checkboxes to compare up to 4 models side by side.

Rank	Model					License
	Qwen3.7-Max-Preview 阿里巴巴	80.40	91.60	60.60	78.30	Proprietary	Details
	Qwen3.6-Max-Preview 阿里巴巴	78.80	87.10	57.30	73.80	Proprietary	Details
	Qwen3-Max-Thinking 阿里巴巴	75.30	85.90	—	—	Proprietary	Details
4	o3-pro OpenAI	75.00	—	—	—	Proprietary	Details
5	Claude Opus 4 Anthropic	72.50	56.60	—	—	Proprietary	Details
6	Claude Sonnet 3.7 Anthropic	70.30	—	—	—	Proprietary	Details
7	OpenAI o4 - mini OpenAI	68.10	—	—	—	Proprietary	Details
8	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	63.20	77.10	—	—	Proprietary	Details
9	GPT-4.1 OpenAI	54.60	40.50	—	—	Proprietary	Details
10	Gemini 2.5 Flash Google Deep Mind	50.00	55.40	—	—	Proprietary	Details
11	OpenAI o3-mini (high) OpenAI	49.30	69.50	—	—	Proprietary	Details
12	OpenAI o1 OpenAI	48.90	71.00	—	—	Proprietary	Details
13	GPT-4.5 OpenAI	38.00	46.40	—	—	Proprietary	Details
14	GPT-4o(2024-11-20) OpenAI	31.00	—	—	—	Proprietary	Details
15	Gemini 2.5 Flash-Lite Google Deep Mind	27.60	34.30	—	—	Proprietary	Details
16	GPT-4.1 mini OpenAI	23.60	—	—	—	Proprietary	Details
17	Gemini 2.0 Flash Experimental DeepMind	21.40	29.10	—	—	Proprietary	Details
18	Codestral 25.01 MistralAI	—	37.90	—	—	Proprietary	Details
19	Hunyuan-TurboS 腾讯AI实验室	—	32.00	—	—	Proprietary	Details
20	Gemini 2.0 Flash-Lite DeepMind	—	28.90	—	—	Proprietary	Details
21	OpenAI o1-mini OpenAI	—	52.00	—	—	Proprietary	Details
22	Magistral-Medium-2506 MistralAI	—	59.36	—	—	Proprietary	Details
23	Kimi-k1.6-IOI Moonshot AI	—	65.90	—	—	Proprietary	Details
24	OpenAI o3-mini (medium) OpenAI	—	67.40	—	—	Proprietary	Details
25	Grok 3 xAI	—	70.60	—	—	Proprietary	Details
26	Kimi-k1.6-IOI-high Moonshot AI	—	73.80	—	—	Proprietary	Details
27	Grok-3 - Reasoning Beta xAI	—	79.40	—	—	Proprietary	Details
28	Gemini 2.5 Pro Deep Think Google Deep Mind	—	80.40	—	—	Proprietary	Details

Qwen3.7-Max-Preview

阿里巴巴

SWE-bench Verified80.40

LiveCodeBench91.60

SWE-Bench Pro - Public60.60

SWE-bench Multilingual78.30

Proprietary

Qwen3.6-Max-Preview

阿里巴巴

SWE-bench Verified78.80

LiveCodeBench87.10

SWE-Bench Pro - Public57.30

SWE-bench Multilingual73.80

Proprietary

Qwen3-Max-Thinking

阿里巴巴

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

o3-pro

OpenAI

SWE-bench Verified75.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Opus 4

Anthropic

SWE-bench Verified72.50

LiveCodeBench56.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Sonnet 3.7

Anthropic

SWE-bench Verified70.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o4 - mini

OpenAI

SWE-bench Verified68.10

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

SWE-bench Verified63.20

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-4.1

OpenAI

SWE-bench Verified54.60

LiveCodeBench40.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5 Flash

Google Deep Mind

SWE-bench Verified50.00

LiveCodeBench55.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3-mini (high)

OpenAI

SWE-bench Verified49.30

LiveCodeBench69.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o1

OpenAI

SWE-bench Verified48.90

LiveCodeBench71.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-4.5

OpenAI

SWE-bench Verified38.00

LiveCodeBench46.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-4o(2024-11-20)

OpenAI

SWE-bench Verified31.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5 Flash-Lite

Google Deep Mind

SWE-bench Verified27.60

LiveCodeBench34.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-4.1 mini

OpenAI

SWE-bench Verified23.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.0 Flash Experimental

DeepMind

SWE-bench Verified21.40

LiveCodeBench29.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Codestral 25.01

MistralAI

SWE-bench Verified—

LiveCodeBench37.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Hunyuan-TurboS

腾讯AI实验室

SWE-bench Verified—

LiveCodeBench32.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.0 Flash-Lite

DeepMind

SWE-bench Verified—

LiveCodeBench28.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o1-mini

OpenAI

SWE-bench Verified—

LiveCodeBench52.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Magistral-Medium-2506

MistralAI

SWE-bench Verified—

LiveCodeBench59.36

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Kimi-k1.6-IOI

Moonshot AI

SWE-bench Verified—

LiveCodeBench65.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3-mini (medium)

OpenAI

SWE-bench Verified—

LiveCodeBench67.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok 3

xAI

SWE-bench Verified—

LiveCodeBench70.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Kimi-k1.6-IOI-high

Moonshot AI

SWE-bench Verified—

LiveCodeBench73.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok-3 - Reasoning Beta

xAI

SWE-bench Verified—

LiveCodeBench79.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5 Pro Deep Think

Google Deep Mind

SWE-bench Verified—

LiveCodeBench80.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Sort by: