LLM Coding Benchmark Leaderboard

Name: LLM Coding Benchmark Leaderboard
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

This page provides the LLM coding benchmark leaderboard, covering SWE-Bench Verified, SWE-Bench Pro, LiveCodeBench, and SWE-bench Multilingual datasets, comparing GPT, Claude, Qwen, and DeepSeek models.

Updated on 2026-05-02 07:10:24

As of 2026-05, this page covers SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual and related benchmarks for LLM Coding Benchmark Leaderboard, making it straightforward to compare within the same task family.

Click any model name to check context length, licensing, and pricing on its detail page. See Data Methodology for scoring details.

Reference: Composite Coding Rankings

There is no single, universally accepted coding leaderboard. Static benchmarks like SWE-bench and HumanEval measure specific skills but can be gamed through targeted fine-tuning. We selected two complementary human-preference leaderboards: LMArena Coding Arena ranks models on general programming tasks (debugging, algorithms, code generation) via anonymous crowd-sourced voting; DesignArena Code Category focuses specifically on visual, front-end code generation (websites, UI components, games) using the same blind-voting methodology. Reading both together gives a fuller picture of coding capability.

LMArena Coding Arena

Full ranking

Elo ratings from anonymous A/B voting on real general coding tasks (debugging, algorithms, code generation) submitted by developers.

Updated 2026-05-07

#ModelElo

Opus 4.7 (thinking)Anthropic

1569

Claude Opus 4.6 (thinking)Anthropic

1553

Opus 4.7Anthropic

1550

Claude Opus 4.6Anthropic

1550

Claude Opus 4 (thinking-32k)Anthropic

1531

Muse SparkFacebook AI研究实验室

1530

Gemini 3.1 Pro PreviewGoogle Deep Mind

1529

gpt-5.4-highOpenAI

1528

智

GLM 5.1智谱AI

1525

gpt-5.5-highOpenAI

1524

Benchmark

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

More Benchmarks

Model Size:All 3B and below 7B 13B

LLM Performance Results

Data source: DataLearnerAI

Rank	Model					License
	Opus 4.7 Anthropic	87.60	—	64.30	—	Proprietary
	Opus 4.5 Anthropic	80.90	87.00	—	—	Proprietary
	Claude Opus 4.6 Anthropic	80.84	76.00	—	72.00	Proprietary
4	DeepSeek-V4-Pro DeepSeek-AI	80.60	93.50	55.40	76.20	Free commercial
5	Claude Sonnet 4 Anthropic	80.20	66.00	42.70	—	Proprietary
6	MiniMax M2.5 MiniMaxAI	80.20	—	55.40	—	Free commercial
7	Kimi K2.6 Moonshot AI	80.20	89.60	58.60	76.70	Free commercial
8	DeepSeek-V4-Flash DeepSeek-AI	79.00	91.60	52.60	73.30	Free commercial
9	Muse Spark Facebook AI研究实验室	77.40	—	—	—	Proprietary
10	Qwen3.6-27B 阿里巴巴	77.20	83.90	53.50	71.30	Free commercial
11	GPT-5.1 OpenAI	76.30	—	50.80	—	Proprietary
12	Qwen3-Max-Thinking 阿里巴巴	75.30	85.90	—	—	Proprietary
13	o3-pro OpenAI	75.00	—	—	—	Proprietary
14	Opus 4.1 Anthropic	74.50	—	—	—	Proprietary
15	Qwen3.6-35B-A3B 阿里巴巴	73.40	80.40	49.50	67.20	Free commercial
16	DeepSeek V3.2 DeepSeek-AI	73.10	83.30	40.90	—	Free commercial
17	Claude Opus 4 Anthropic	72.50	56.60	—	—	Proprietary
18	Qwen3.5-27B 阿里巴巴	72.40	80.70	—	—	Free commercial
19	Kimi K2 Thinking Moonshot AI	71.30	83.10	—	—	Free commercial
20	OpenAI o3 OpenAI	69.10	75.80	—	—	Proprietary
21	OpenAI o4 - mini OpenAI	68.10	—	—	—	Proprietary
22	DeepSeek V3.2-Exp DeepSeek-AI	67.80	74.10	—	—	Free commercial
23	Gemini 2.5-Pro Google Deep Mind	67.20	77.10	—	—	Proprietary
24	GLM-4.5 智谱AI	64.20	72.90	—	—	Free commercial
25	Gemini 2.5 Pro Experimental 03-25 Google Deep Mind	63.80	70.40	—	—	Proprietary
26	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	63.20	77.10	—	—	Proprietary
27	GPT OSS 120B OpenAI	60.10	—	—	—	Free commercial
28	GLM-4.7-Flash 智谱AI	59.20	—	—	—	Free commercial
29	Grok 4 xAI	58.60	82.00	—	—	Proprietary
30	DeepSeek-R1-0528 DeepSeek-AI	57.60	73.30	—	—	Free commercial
31	GLM-4.5-Air 智谱AI	57.60	70.70	—	—	Free commercial
32	MiniMax-M1-80k MiniMaxAI	56.00	65.00	—	—	Free commercial
33	MiniMax-M1-40k MiniMaxAI	55.60	62.30	—	—	Free commercial
34	Grok 4.1 xAI	54.60	—	—	—	Proprietary
35	Gemini 2.5 Flash Google Deep Mind	50.00	55.40	—	—	Proprietary
36	OpenAI o3-mini (high) OpenAI	49.30	69.50	—	—	Proprietary
37	DeepSeek-R1 DeepSeek-AI	49.20	65.90	—	—	Free commercial
38	OpenAI o1 OpenAI	48.90	71.00	—	—	Proprietary
39	OpenAI o3-mini OpenAI	40.80	—	—	—	Proprietary
40	Qwen3-235B-A22B 阿里巴巴	34.40	70.70	—	—	Free commercial
41	GPT OSS 20B OpenAI	34.00	—	—	—	Free commercial
42	Gemini 2.5 Flash-Lite Google Deep Mind	27.60	34.30	—	—	Proprietary
43	Qwen3-8B 阿里巴巴	—	61.80	—	—	Free commercial
44	Composer 1.5 Cursor	—	—	—	65.90	Proprietary
45	Magistral-Medium-2506 MistralAI	—	59.36	—	—	Proprietary
46	Magistral-Small-2506 MistralAI	—	55.84	—	—	Free commercial
47	OpenAI o1-mini OpenAI	—	52.00	—	—	Proprietary
48	Hunyuan-TurboS 腾讯AI实验室	—	32.00	—	—	Proprietary
49	Qwen3-30B-A3B 阿里巴巴	—	29.00	—	—	Free commercial
50	GPT-5.5 OpenAI	—	—	58.60	—	Proprietary

Opus 4.7

Anthropic

SWE-bench Verified87.60

LiveCodeBench—

SWE-Bench Pro - Public64.30

SWE-bench Multilingual—

Proprietary

Opus 4.5

Anthropic

SWE-bench Verified80.90

LiveCodeBench87.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Opus 4.6

Anthropic

SWE-bench Verified80.84

LiveCodeBench76.00

SWE-Bench Pro - Public—

SWE-bench Multilingual72.00

Proprietary

DeepSeek-V4-Pro

DeepSeek-AI

SWE-bench Verified80.60

LiveCodeBench93.50

SWE-Bench Pro - Public55.40

SWE-bench Multilingual76.20

Free commercial

Claude Sonnet 4

Anthropic

SWE-bench Verified80.20

LiveCodeBench66.00

SWE-Bench Pro - Public42.70

SWE-bench Multilingual—

Proprietary

MiniMax M2.5

MiniMaxAI

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual—

Free commercial

Kimi K2.6

Moonshot AI

SWE-bench Verified80.20

LiveCodeBench89.60

SWE-Bench Pro - Public58.60

SWE-bench Multilingual76.70

Free commercial

DeepSeek-V4-Flash

DeepSeek-AI

SWE-bench Verified79.00

LiveCodeBench91.60

SWE-Bench Pro - Public52.60

SWE-bench Multilingual73.30

Free commercial

Muse Spark

Facebook AI研究实验室

SWE-bench Verified77.40

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3.6-27B

阿里巴巴

SWE-bench Verified77.20

LiveCodeBench83.90

SWE-Bench Pro - Public53.50

SWE-bench Multilingual71.30

Free commercial

GPT-5.1

OpenAI

SWE-bench Verified76.30

LiveCodeBench—

SWE-Bench Pro - Public50.80

SWE-bench Multilingual—

Proprietary

Qwen3-Max-Thinking

阿里巴巴

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

o3-pro

OpenAI

SWE-bench Verified75.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Opus 4.1

Anthropic

SWE-bench Verified74.50

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3.6-35B-A3B

阿里巴巴

SWE-bench Verified73.40

LiveCodeBench80.40

SWE-Bench Pro - Public49.50

SWE-bench Multilingual67.20

Free commercial

DeepSeek V3.2

DeepSeek-AI

SWE-bench Verified73.10

LiveCodeBench83.30

SWE-Bench Pro - Public40.90

SWE-bench Multilingual—

Free commercial

Claude Opus 4

Anthropic

SWE-bench Verified72.50

LiveCodeBench56.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3.5-27B

阿里巴巴

SWE-bench Verified72.40

LiveCodeBench80.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Kimi K2 Thinking

Moonshot AI

SWE-bench Verified71.30

LiveCodeBench83.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

OpenAI o3

OpenAI

SWE-bench Verified69.10

LiveCodeBench75.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o4 - mini

OpenAI

SWE-bench Verified68.10

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

DeepSeek V3.2-Exp

DeepSeek-AI

SWE-bench Verified67.80

LiveCodeBench74.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Gemini 2.5-Pro

Google Deep Mind

SWE-bench Verified67.20

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GLM-4.5

智谱AI

SWE-bench Verified64.20

LiveCodeBench72.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Gemini 2.5 Pro Experimental 03-25

Google Deep Mind

SWE-bench Verified63.80

LiveCodeBench70.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

SWE-bench Verified63.20

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT OSS 120B

OpenAI

SWE-bench Verified60.10

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GLM-4.7-Flash

智谱AI

SWE-bench Verified59.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Grok 4

xAI

SWE-bench Verified58.60

LiveCodeBench82.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

DeepSeek-R1-0528

DeepSeek-AI

SWE-bench Verified57.60

LiveCodeBench73.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GLM-4.5-Air

智谱AI

SWE-bench Verified57.60

LiveCodeBench70.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

MiniMax-M1-80k

MiniMaxAI

SWE-bench Verified56.00

LiveCodeBench65.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

MiniMax-M1-40k

MiniMaxAI

SWE-bench Verified55.60

LiveCodeBench62.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Grok 4.1

xAI

SWE-bench Verified54.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5 Flash

Google Deep Mind

SWE-bench Verified50.00

LiveCodeBench55.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3-mini (high)

OpenAI

SWE-bench Verified49.30

LiveCodeBench69.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

DeepSeek-R1

DeepSeek-AI

SWE-bench Verified49.20

LiveCodeBench65.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

OpenAI o1

OpenAI

SWE-bench Verified48.90

LiveCodeBench71.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3-mini

OpenAI

SWE-bench Verified40.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3-235B-A22B

阿里巴巴

SWE-bench Verified34.40

LiveCodeBench70.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GPT OSS 20B

OpenAI

SWE-bench Verified34.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Gemini 2.5 Flash-Lite

Google Deep Mind

SWE-bench Verified27.60

LiveCodeBench34.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3-8B

阿里巴巴

SWE-bench Verified—

LiveCodeBench61.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Composer 1.5

Cursor

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual65.90

Proprietary

Magistral-Medium-2506

MistralAI

SWE-bench Verified—

LiveCodeBench59.36

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Magistral-Small-2506

MistralAI

SWE-bench Verified—

LiveCodeBench55.84

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

OpenAI o1-mini

OpenAI

SWE-bench Verified—

LiveCodeBench52.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Hunyuan-TurboS

腾讯AI实验室

SWE-bench Verified—

LiveCodeBench32.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3-30B-A3B

阿里巴巴

SWE-bench Verified—

LiveCodeBench29.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GPT-5.5

OpenAI

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public58.60

SWE-bench Multilingual—

Proprietary

Sort by:

Showing 50 of 64 modelsView SWE-bench Verified benchmark page