LLM Coding Benchmark Leaderboard

Name: LLM Coding Benchmark Leaderboard
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

This page provides the LLM coding benchmark leaderboard, covering SWE-Bench Verified, SWE-Bench Pro, LiveCodeBench, and SWE-bench Multilingual datasets, comparing GPT, Claude, Qwen, and DeepSeek models.

Updated on 2026-05-21 22:14:17

As of 2026-05, this page covers SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual and related benchmarks for LLM Coding Benchmark Leaderboard, making it straightforward to compare within the same task family.

Click any model name to check context length, licensing, and pricing on its detail page. See Data Methodology for scoring details.

Reference: Composite Coding Rankings

There is no single, universally accepted coding leaderboard. Static benchmarks like SWE-bench and HumanEval measure specific skills but can be gamed through targeted fine-tuning. We selected two complementary human-preference leaderboards: LMArena Coding Arena ranks models on general programming tasks (debugging, algorithms, code generation) via anonymous crowd-sourced voting; DesignArena Code Category focuses specifically on visual, front-end code generation (websites, UI components, games) using the same blind-voting methodology. Reading both together gives a fuller picture of coding capability.

LMArena Coding Arena

Full ranking

Elo ratings from anonymous A/B voting on real general coding tasks (debugging, algorithms, code generation) submitted by developers.

Updated 2026-05-14

#ModelElo

Opus 4.7 (thinking)Anthropic

1563

Opus 4.7Anthropic

1551

Claude Opus 4.6 (thinking)Anthropic

1550

Claude Opus 4.6Anthropic

1549

Claude Opus 4 (thinking-32k)Anthropic

1531

Muse SparkFacebook AI研究实验室

1530

GPT-5.4 (high)OpenAI

1527

智

GLM 5.1智谱AI

1527

Gemini 3.1 Pro PreviewGoogle Deep Mind

1526

Claude Sonnet 4.6Anthropic

1522

Benchmark

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

More Benchmarks

Model Size:All 3B and below 7B

Top picks

Ranked by SWE-bench Multilingual

Current SOTA

Qwen3.7-Max-Preview

阿里巴巴

78.30SWE-bench Multilingual

View model

Best Open-Source

No qualifying model on this benchmark.

Best China-Made

Qwen3-Max-Thinking

阿里巴巴

—SWE-bench Multilingual

View model

LLM Performance Results

Data source: DataLearnerAI

Click any row to open the model page. Tick the checkboxes to compare up to 4 models side by side.

Rank	Model					License
	Qwen3.7-Max-Preview 阿里巴巴	80.40	91.60	60.60	78.30	Proprietary	Details
	Claude Opus 4.6 Anthropic	80.84	76.00	—	72.00	Proprietary	Details
	Composer 1.5 Cursor	—	—	—	65.90	Proprietary	Details
4	Opus 4.7 Anthropic	87.60	—	64.30	—	Proprietary	Details
5	Opus 4.5 Anthropic	80.90	87.00	—	—	Proprietary	Details
6	Claude Sonnet 4 Anthropic	80.20	66.00	42.70	—	Proprietary	Details
7	Muse Spark Facebook AI研究实验室	77.40	—	—	—	Proprietary	Details
8	GPT-5.1 OpenAI	76.30	—	50.80	—	Proprietary	Details
9	Qwen3-Max-Thinking 阿里巴巴	75.30	85.90	—	—	Proprietary	Details
10	o3-pro OpenAI	75.00	—	—	—	Proprietary	Details
11	Opus 4.1 Anthropic	74.50	—	—	—	Proprietary	Details
12	Claude Opus 4 Anthropic	72.50	56.60	—	—	Proprietary	Details
13	OpenAI o3 OpenAI	69.10	75.80	—	—	Proprietary	Details
14	OpenAI o4 - mini OpenAI	68.10	—	—	—	Proprietary	Details
15	Gemini 2.5-Pro Google Deep Mind	67.20	77.10	—	—	Proprietary	Details
16	Gemini 2.5 Pro Experimental 03-25 Google Deep Mind	63.80	70.40	—	—	Proprietary	Details
17	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	63.20	77.10	—	—	Proprietary	Details
18	Grok 4 xAI	58.60	82.00	—	—	Proprietary	Details
19	Grok 4.1 xAI	54.60	—	—	—	Proprietary	Details
20	Gemini 2.5 Flash Google Deep Mind	50.00	55.40	—	—	Proprietary	Details
21	OpenAI o3-mini (high) OpenAI	49.30	69.50	—	—	Proprietary	Details
22	OpenAI o1 OpenAI	48.90	71.00	—	—	Proprietary	Details
23	OpenAI o3-mini OpenAI	40.80	—	—	—	Proprietary	Details
24	Gemini 2.5 Flash-Lite Google Deep Mind	27.60	34.30	—	—	Proprietary	Details
25	Magistral-Medium-2506 MistralAI	—	59.36	—	—	Proprietary	Details
26	OpenAI o1-mini OpenAI	—	52.00	—	—	Proprietary	Details
27	Hunyuan-TurboS 腾讯AI实验室	—	32.00	—	—	Proprietary	Details
28	GPT-5.5 OpenAI	—	—	58.60	—	Proprietary	Details
29	GPT-5.4 mini OpenAI	—	—	54.40	—	Proprietary	Details
30	Hunyuan-T1 腾讯AI实验室	—	64.90	—	—	Proprietary	Details
31	Kimi-k1.6-IOI Moonshot AI	—	65.90	—	—	Proprietary	Details
32	OpenAI o3-mini (medium) OpenAI	—	67.40	—	—	Proprietary	Details
33	Kimi-k1.6-IOI-high Moonshot AI	—	73.80	—	—	Proprietary	Details
34	Grok-3 - Reasoning Beta xAI	—	79.40	—	—	Proprietary	Details
35	Gemini 2.5 Pro Deep Think Google Deep Mind	—	80.40	—	—	Proprietary	Details
36	Grok 4.1 Fast xAI	—	82.00	—	—	Proprietary	Details

Qwen3.7-Max-Preview

阿里巴巴

SWE-bench Verified80.40

LiveCodeBench91.60

SWE-Bench Pro - Public60.60

SWE-bench Multilingual78.30

Proprietary

Claude Opus 4.6

Anthropic

SWE-bench Verified80.84

LiveCodeBench76.00

SWE-Bench Pro - Public—

SWE-bench Multilingual72.00

Proprietary

Composer 1.5

Cursor

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual65.90

Proprietary

Opus 4.7

Anthropic

SWE-bench Verified87.60

LiveCodeBench—

SWE-Bench Pro - Public64.30

SWE-bench Multilingual—

Proprietary

Opus 4.5

Anthropic

SWE-bench Verified80.90

LiveCodeBench87.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Sonnet 4

Anthropic

SWE-bench Verified80.20

LiveCodeBench66.00

SWE-Bench Pro - Public42.70

SWE-bench Multilingual—

Proprietary

Muse Spark

Facebook AI研究实验室

SWE-bench Verified77.40

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-5.1

OpenAI

SWE-bench Verified76.30

LiveCodeBench—

SWE-Bench Pro - Public50.80

SWE-bench Multilingual—

Proprietary

Qwen3-Max-Thinking

阿里巴巴

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

o3-pro

OpenAI

SWE-bench Verified75.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Opus 4.1

Anthropic

SWE-bench Verified74.50

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Opus 4

Anthropic

SWE-bench Verified72.50

LiveCodeBench56.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3

OpenAI

SWE-bench Verified69.10

LiveCodeBench75.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o4 - mini

OpenAI

SWE-bench Verified68.10

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5-Pro

Google Deep Mind

SWE-bench Verified67.20

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5 Pro Experimental 03-25

Google Deep Mind

SWE-bench Verified63.80

LiveCodeBench70.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

SWE-bench Verified63.20

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok 4

xAI

SWE-bench Verified58.60

LiveCodeBench82.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok 4.1

xAI

SWE-bench Verified54.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5 Flash

Google Deep Mind

SWE-bench Verified50.00

LiveCodeBench55.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3-mini (high)

OpenAI

SWE-bench Verified49.30

LiveCodeBench69.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o1

OpenAI

SWE-bench Verified48.90

LiveCodeBench71.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3-mini

OpenAI

SWE-bench Verified40.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5 Flash-Lite

Google Deep Mind

SWE-bench Verified27.60

LiveCodeBench34.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Magistral-Medium-2506

MistralAI

SWE-bench Verified—

LiveCodeBench59.36

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o1-mini

OpenAI

SWE-bench Verified—

LiveCodeBench52.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Hunyuan-TurboS

腾讯AI实验室

SWE-bench Verified—

LiveCodeBench32.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-5.5

OpenAI

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public58.60

SWE-bench Multilingual—

Proprietary

GPT-5.4 mini

OpenAI

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public54.40

SWE-bench Multilingual—

Proprietary

Hunyuan-T1

腾讯AI实验室

SWE-bench Verified—

LiveCodeBench64.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Kimi-k1.6-IOI

Moonshot AI

SWE-bench Verified—

LiveCodeBench65.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3-mini (medium)

OpenAI

SWE-bench Verified—

LiveCodeBench67.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Kimi-k1.6-IOI-high

Moonshot AI

SWE-bench Verified—

LiveCodeBench73.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok-3 - Reasoning Beta

xAI

SWE-bench Verified—

LiveCodeBench79.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5 Pro Deep Think

Google Deep Mind

SWE-bench Verified—

LiveCodeBench80.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok 4.1 Fast

xAI

SWE-bench Verified—

LiveCodeBench82.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Sort by: