LLM Coding Benchmark Leaderboard

Name: LLM Coding Benchmark Leaderboard
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

This page provides the LLM coding benchmark leaderboard, covering SWE-Bench Verified, SWE-Bench Pro, LiveCodeBench, and SWE-bench Multilingual datasets, comparing GPT, Claude, Qwen, and DeepSeek models.

Updated on 2026-05-21 22:14:17

As of 2026-05, this page covers SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual and related benchmarks for LLM Coding Benchmark Leaderboard, making it straightforward to compare within the same task family.

Click any model name to check context length, licensing, and pricing on its detail page. See Data Methodology for scoring details.

Reference: Composite Coding Rankings

There is no single, universally accepted coding leaderboard. Static benchmarks like SWE-bench and HumanEval measure specific skills but can be gamed through targeted fine-tuning. We selected two complementary human-preference leaderboards: LMArena Coding Arena ranks models on general programming tasks (debugging, algorithms, code generation) via anonymous crowd-sourced voting; DesignArena Code Category focuses specifically on visual, front-end code generation (websites, UI components, games) using the same blind-voting methodology. Reading both together gives a fuller picture of coding capability.

LMArena Coding Arena

Full ranking

Elo ratings from anonymous A/B voting on real general coding tasks (debugging, algorithms, code generation) submitted by developers.

Updated 2026-05-14

#ModelElo

Opus 4.7 (thinking)Anthropic

1563

Opus 4.7Anthropic

1551

Claude Opus 4.6 (thinking)Anthropic

1550

Claude Opus 4.6Anthropic

1549

Claude Opus 4 (thinking-32k)Anthropic

1531

Muse SparkFacebook AI研究实验室

1530

GPT-5.4 (high)OpenAI

1527

智

GLM 5.1智谱AI

1527

Gemini 3.1 Pro PreviewGoogle Deep Mind

1526

Claude Sonnet 4.6Anthropic

1522

Benchmark

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

More Benchmarks

Model Size:All 3B and below 7B

Top picks

Ranked by SWE-bench Multilingual

Current SOTA

Qwen3.7-Max-Preview

阿里巴巴

78.30SWE-bench Multilingual

View model

Best Open-Source

Kimi K2.6

Moonshot AI

76.70SWE-bench Multilingual−1.60

View model

Best China-Made

DeepSeek-V4-Pro

DeepSeek-AI

76.20SWE-bench Multilingual−2.10

View model

LLM Performance Results

Data source: DataLearnerAI

Click any row to open the model page. Tick the checkboxes to compare up to 4 models side by side.

Rank	Model					License
	Qwen3.7-Max-Preview 阿里巴巴	80.40	91.60	60.60	78.30	Proprietary	Details
	Kimi K2.6 Moonshot AI	80.20	89.60	58.60	76.70	Free commercial	Details
	DeepSeek-V4-Pro DeepSeek-AI	80.60	93.50	55.40	76.20	Free commercial	Details
4	Qwen3.6-Max-Preview 阿里巴巴	78.80	87.10	57.30	73.80	Proprietary	Details
5	DeepSeek-V4-Flash DeepSeek-AI	79.00	91.60	52.60	73.30	Free commercial	Details
6	Kimi K2.5 Moonshot AI	76.80	85.00	50.70	73.00	Free commercial	Details
7	MiniMax M2.5 MiniMaxAI	80.20	—	55.40	—	Free commercial	Details
8	GLM-5 智谱AI	77.80	—	—	—	Free commercial	Details
9	Qwen3-Max-Thinking 阿里巴巴	75.30	85.90	—	—	Proprietary	Details
10	o3-pro OpenAI	75.00	—	—	—	Proprietary	Details
11	M2.1 MiniMaxAI	74.80	—	32.60	—	Free commercial	Details
12	Step 3.5 Flash StepFunAI	74.40	86.40	—	—	Free commercial	Details
13	GLM-4.7 智谱AI	73.80	84.90	40.60	—	Free commercial	Details
14	DeepSeek V3.2 DeepSeek-AI	73.10	83.30	40.90	—	Free commercial	Details
15	Claude Opus 4 Anthropic	72.50	56.60	—	—	Proprietary	Details
16	Kimi K2 Thinking Moonshot AI	71.30	83.10	—	—	Free commercial	Details
17	Claude Sonnet 3.7 Anthropic	70.30	—	—	—	Proprietary	Details
18	MiniMax M2 MiniMaxAI	69.40	83.00	—	—	Free commercial	Details
19	Kimi K2 0905 Moonshot AI	69.20	—	27.67	—	Free commercial	Details
20	DeepSeek-V3.1 Terminus DeepSeek-AI	68.40	80.00	—	—	Free commercial	Details
21	OpenAI o4 - mini OpenAI	68.10	—	—	—	Proprietary	Details
22	GLM-4.6 智谱AI	68.00	84.50	—	—	Free commercial	Details
23	DeepSeek V3.2-Exp DeepSeek-AI	67.80	74.10	—	—	Free commercial	Details
24	Qwen3-Coder-480B-A35B 阿里巴巴	67.00	—	—	—	Free commercial	Details
25	DeepSeek-V3.1 DeepSeek-AI	66.00	74.80	—	—	Free commercial	Details
26	GLM-4.5 智谱AI	64.20	72.90	—	—	Free commercial	Details
27	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	63.20	77.10	—	—	Proprietary	Details
28	DeepSeek-R1-0528 DeepSeek-AI	57.60	73.30	—	—	Free commercial	Details
29	GLM-4.5-Air 智谱AI	57.60	70.70	—	—	Free commercial	Details
30	MiniMax-M1-80k MiniMaxAI	56.00	65.00	—	—	Free commercial	Details
31	MiniMax-M1-40k MiniMaxAI	55.60	62.30	—	—	Free commercial	Details
32	GPT-4.1 OpenAI	54.60	40.50	—	—	Proprietary	Details
33	Kimi K2 Moonshot AI	51.80	53.70	—	—	Free commercial	Details
34	Gemini 2.5 Flash Google Deep Mind	50.00	55.40	—	—	Proprietary	Details
35	OpenAI o3-mini (high) OpenAI	49.30	69.50	—	—	Proprietary	Details
36	DeepSeek-R1 DeepSeek-AI	49.20	65.90	—	—	Free commercial	Details
37	OpenAI o1 OpenAI	48.90	71.00	—	—	Proprietary	Details
38	DeepSeek-V3-0324 DeepSeek-AI	38.80	49.20	—	—	Free commercial	Details
39	GPT-4.5 OpenAI	38.00	46.40	—	—	Proprietary	Details
40	Qwen3-235B-A22B 阿里巴巴	34.40	70.70	—	—	Free commercial	Details
41	GPT-4o(2024-11-20) OpenAI	31.00	—	—	—	Proprietary	Details
42	Gemini 2.5 Flash-Lite Google Deep Mind	27.60	34.30	—	—	Proprietary	Details
43	GPT-4.1 mini OpenAI	23.60	—	—	—	Proprietary	Details
44	Gemini 2.0 Flash Experimental DeepMind	21.40	29.10	—	—	Proprietary	Details
45	Llama 4 Behemoth Instruct Facebook AI研究实验室	—	49.40	—	—	Free commercial	Details
46	Llama 4 Maverick Instruct Facebook AI研究实验室	—	43.40	—	—	Free commercial	Details
47	ERNIE-4.5-VL-424B-A47B-Base 百度	—	38.80	—	—	Free commercial	Details
48	ERNIE-4.5-300B-A47B 百度	—	38.80	—	—	Free commercial	Details
49	Codestral 25.01 MistralAI	—	37.90	—	—	Proprietary	Details
50	DeepSeek-V3 DeepSeek-AI	—	34.60	—	—	Free commercial	Details

Qwen3.7-Max-Preview

阿里巴巴

SWE-bench Verified80.40

LiveCodeBench91.60

SWE-Bench Pro - Public60.60

SWE-bench Multilingual78.30

Proprietary

Kimi K2.6

Moonshot AI

SWE-bench Verified80.20

LiveCodeBench89.60

SWE-Bench Pro - Public58.60

SWE-bench Multilingual76.70

Free commercial

DeepSeek-V4-Pro

DeepSeek-AI

SWE-bench Verified80.60

LiveCodeBench93.50

SWE-Bench Pro - Public55.40

SWE-bench Multilingual76.20

Free commercial

Qwen3.6-Max-Preview

阿里巴巴

SWE-bench Verified78.80

LiveCodeBench87.10

SWE-Bench Pro - Public57.30

SWE-bench Multilingual73.80

Proprietary

DeepSeek-V4-Flash

DeepSeek-AI

SWE-bench Verified79.00

LiveCodeBench91.60

SWE-Bench Pro - Public52.60

SWE-bench Multilingual73.30

Free commercial

Kimi K2.5

Moonshot AI

SWE-bench Verified76.80

LiveCodeBench85.00

SWE-Bench Pro - Public50.70

SWE-bench Multilingual73.00

Free commercial

MiniMax M2.5

MiniMaxAI

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual—

Free commercial

GLM-5

智谱AI

SWE-bench Verified77.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Qwen3-Max-Thinking

阿里巴巴

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

o3-pro

OpenAI

SWE-bench Verified75.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

M2.1

MiniMaxAI

SWE-bench Verified74.80

LiveCodeBench—

SWE-Bench Pro - Public32.60

SWE-bench Multilingual—

Free commercial

Step 3.5 Flash

StepFunAI

SWE-bench Verified74.40

LiveCodeBench86.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GLM-4.7

智谱AI

SWE-bench Verified73.80

LiveCodeBench84.90

SWE-Bench Pro - Public40.60

SWE-bench Multilingual—

Free commercial

DeepSeek V3.2

DeepSeek-AI

SWE-bench Verified73.10

LiveCodeBench83.30

SWE-Bench Pro - Public40.90

SWE-bench Multilingual—

Free commercial

Claude Opus 4

Anthropic

SWE-bench Verified72.50

LiveCodeBench56.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Kimi K2 Thinking

Moonshot AI

SWE-bench Verified71.30

LiveCodeBench83.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Claude Sonnet 3.7

Anthropic

SWE-bench Verified70.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

MiniMax M2

MiniMaxAI

SWE-bench Verified69.40

LiveCodeBench83.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Kimi K2 0905

Moonshot AI

SWE-bench Verified69.20

LiveCodeBench—

SWE-Bench Pro - Public27.67

SWE-bench Multilingual—

Free commercial

DeepSeek-V3.1 Terminus

DeepSeek-AI

SWE-bench Verified68.40

LiveCodeBench80.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

OpenAI o4 - mini

OpenAI

SWE-bench Verified68.10

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GLM-4.6

智谱AI

SWE-bench Verified68.00

LiveCodeBench84.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

DeepSeek V3.2-Exp

DeepSeek-AI

SWE-bench Verified67.80

LiveCodeBench74.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Qwen3-Coder-480B-A35B

阿里巴巴

SWE-bench Verified67.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

DeepSeek-V3.1

DeepSeek-AI

SWE-bench Verified66.00

LiveCodeBench74.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GLM-4.5

智谱AI

SWE-bench Verified64.20

LiveCodeBench72.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

SWE-bench Verified63.20

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

DeepSeek-R1-0528

DeepSeek-AI

SWE-bench Verified57.60

LiveCodeBench73.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GLM-4.5-Air

智谱AI

SWE-bench Verified57.60

LiveCodeBench70.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

MiniMax-M1-80k

MiniMaxAI

SWE-bench Verified56.00

LiveCodeBench65.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

MiniMax-M1-40k

MiniMaxAI

SWE-bench Verified55.60

LiveCodeBench62.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GPT-4.1

OpenAI

SWE-bench Verified54.60

LiveCodeBench40.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Kimi K2

Moonshot AI

SWE-bench Verified51.80

LiveCodeBench53.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Gemini 2.5 Flash

Google Deep Mind

SWE-bench Verified50.00

LiveCodeBench55.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3-mini (high)

OpenAI

SWE-bench Verified49.30

LiveCodeBench69.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

DeepSeek-R1

DeepSeek-AI

SWE-bench Verified49.20

LiveCodeBench65.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

OpenAI o1

OpenAI

SWE-bench Verified48.90

LiveCodeBench71.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

DeepSeek-V3-0324

DeepSeek-AI

SWE-bench Verified38.80

LiveCodeBench49.20

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GPT-4.5

OpenAI

SWE-bench Verified38.00

LiveCodeBench46.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3-235B-A22B

阿里巴巴

SWE-bench Verified34.40

LiveCodeBench70.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GPT-4o(2024-11-20)

OpenAI

SWE-bench Verified31.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5 Flash-Lite

Google Deep Mind

SWE-bench Verified27.60

LiveCodeBench34.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-4.1 mini

OpenAI

SWE-bench Verified23.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.0 Flash Experimental

DeepMind

SWE-bench Verified21.40

LiveCodeBench29.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Llama 4 Behemoth Instruct

Facebook AI研究实验室

SWE-bench Verified—

LiveCodeBench49.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Llama 4 Maverick Instruct

Facebook AI研究实验室

SWE-bench Verified—

LiveCodeBench43.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

ERNIE-4.5-VL-424B-A47B-Base

百度

SWE-bench Verified—

LiveCodeBench38.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

ERNIE-4.5-300B-A47B

百度

SWE-bench Verified—

LiveCodeBench38.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Codestral 25.01

MistralAI

SWE-bench Verified—

LiveCodeBench37.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

DeepSeek-V3

DeepSeek-AI

SWE-bench Verified—

LiveCodeBench34.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Sort by:

Showing 50 of 67 modelsView SWE-bench Multilingual benchmark page