LLM Coding Benchmark Leaderboard

Name: LLM Coding Benchmark Leaderboard
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

This page provides the LLM coding benchmark leaderboard, covering SWE-Bench Verified, SWE-Bench Pro, LiveCodeBench, and SWE-bench Multilingual datasets, comparing GPT, Claude, Qwen, and DeepSeek models.

Updated on 2026-07-18 08:01:52

As of 2026-07, this page covers SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual and related benchmarks for LLM Coding Benchmark Leaderboard, making it straightforward to compare within the same task family.

Click any model name to check context length, licensing, and pricing on its detail page. See Data Methodology for scoring details.

Reference: Composite Coding Rankings

There is no single, universally accepted coding leaderboard. Static benchmarks like SWE-bench and HumanEval measure specific skills but can be gamed through targeted fine-tuning. We selected two complementary human-preference leaderboards: LMArena Coding Arena ranks models on general programming tasks (debugging, algorithms, code generation) via anonymous crowd-sourced voting; DesignArena Code Category focuses specifically on visual, front-end code generation (websites, UI components, games) using the same blind-voting methodology. Reading both together gives a fuller picture of coding capability.

LMArena Coding Arena

Full ranking

Elo ratings from anonymous A/B voting on real general coding tasks (debugging, algorithms, code generation) submitted by developers.

Updated 2026-07-10

#ModelElo

Claude Fable 5Anthropic

1564

Opus 4.7 (thinking)Anthropic

1553

Claude Opus 4.6 (thinking)Anthropic

1550

Opus 4.7Anthropic

1550

Claude Opus 4.6Anthropic

1547

Claude Opus 4.8 (thinking)Anthropic

1537

Claude Opus 4.8Anthropic

1533

muse-spark-1.1Meta

1530

Claude Opus 4 (thinking-32k)Anthropic

1530

gpt-5.6-sol-xhighOpenAI

1528

Source: LMArena

DesignArena Code Category

Full ranking

Elo ratings from anonymous voting on visual front-end code tasks (websites, UI components, games, data viz) by Arcada Labs.

Updated 2026-07-12

#ModelElo

GLM 5.2Zhipu AI

1352

GPT-5.6 SolOpenAI

1350

Claude Fable 5Anthropic

1344

Claude Opus 4.6Anthropic

1336

Claude Opus 4.6 (thinking)Anthropic

1330

Opus 4.7Anthropic

1330

Grok 4.5xAI

1328

智

GLM 5.1智谱AI

1321

Kimi K2.6Moonshot AI

1320

Claude Sonnet 4.6Anthropic

1319

Source: DesignArena

Benchmark

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

More Benchmarks

Model Size:All 3B and below 7B 13B 34B 65B 100B and above

Model Type:All Reasoning Models Foundation Models Instruction/Chat Models Coding Models

Source:All Open Source Closed Source

Origin:All China

Model release cutoff:

Top picks

Ranked by LiveCodeBench

Current SOTA

DeepSeek-V4-Pro

DeepSeek-AI

93.50LiveCodeBench

View model

Best Open-Source

DeepSeek-V4-Pro

DeepSeek-AI

93.50LiveCodeBench

View model

Best China-Made

DeepSeek-V4-Pro

DeepSeek-AI

93.50LiveCodeBench

View model

LLM Performance Results

Data source: DataLearnerAI

Click any row to open the model page. Tick the checkboxes to compare up to 4 models side by side.

Rank	Model					License
	DeepSeek-V4-Pro Thinking Level · High DeepSeek-AI	—	93.50	—	—	Free commercial	Details
	Gemini 3.0 Pro (Preview 11-2025) Thinking Enabled Google Deep Mind	76.20	92.00	—	—	Proprietary	Details
	Gemini 3.1 Pro Preview Thinking EnabledTools Google Deep Mind	80.60	91.70	54.20	—	Proprietary	Details
4	Qwen3.7-Max-Preview Thinking Level · High 阿里巴巴	—	91.60	—	—	Proprietary	Details
5	DeepSeek-V4-Flash Thinking Level · High DeepSeek-AI	—	91.60	—	—	Free commercial	Details
6	DeepSeek-V4-Pro Thinking Enabled DeepSeek-AI	—	89.80	—	—	Free commercial	Details
7	Kimi K2.6 Thinking Enabled Moonshot AI	—	89.60	—	—	Free commercial	Details
8	DeepSeek-V4-Flash Thinking Enabled DeepSeek-AI	—	88.40	—	—	Free commercial	Details
9	Gemini 2.5 Deep Think Deep Thinking Mode Google Deep Mind	—	87.60	—	—	Proprietary	Details
10	Qwen3.6-Max-Preview Thinking Level · High 阿里巴巴	—	87.10	—	—	Proprietary	Details
11	Qwen 3.6 Plus Preview Thinking Enabled 阿里巴巴	—	87.10	56.60	73.80	Proprietary	Details
12	Opus 4.5 Extended ThinkingTools Anthropic	80.90	87.00	—	—	Proprietary	Details
13	Step 3.5 Flash Thinking Enabled StepFunAI	74.40	86.40	—	—	Free commercial	Details
14	Qwen3-Max-Thinking Thinking Enabled 阿里巴巴	75.30	85.90	—	—	Proprietary	Details
15	GPT-5.1 Codex Thinking Level · HighTools OpenAI	70.40	85.50	—	—	Proprietary	Details
16	Kimi K2.5 Thinking Enabled Moonshot AI	—	85.00	—	73.00	Free commercial	Details
17	GLM-4.7 Thinking Enabled 智谱AI	—	84.90	—	—	Free commercial	Details
18	GLM-4.6 Thinking EnabledTools 智谱AI	68.00	84.50	—	—	Free commercial	Details
19	Qwen3.6-27B Thinking Enabled 阿里巴巴	—	83.90	—	—	Free commercial	Details
20	Qwen3.5-397B-A17B Thinking Enabled 阿里巴巴	—	83.60	50.90	69.30	Free commercial	Details
21	DeepSeek V3.2 Thinking Enabled DeepSeek-AI	70.20	83.30	40.90	—	Free commercial	Details
22	Kimi K2 Thinking Thinking Enabled Moonshot AI	—	83.10	—	—	Free commercial	Details
23	MiniMax M2 Thinking Enabled MiniMaxAI	—	83.00	—	—	Free commercial	Details
24	GLM-4.6 Thinking Enabled 智谱AI	—	82.80	—	—	Free commercial	Details
25	Grok 4 Thinking Enabled xAI	58.60	82.00	—	—	Proprietary	Details
26	Grok 4.1 Fast Thinking Enabled xAI	—	82.00	—	—	Proprietary	Details
27	Qwen3.5-27B Thinking EnabledTools 阿里巴巴	—	80.70	—	—	Free commercial	Details
28	Qwen3.6-35B-A3B Thinking Enabled 阿里巴巴	73.40	80.40	49.50	67.20	Free commercial	Details
29	Gemini 2.5 Pro Deep Think Google Deep Mind	—	80.40	—	—	Proprietary	Details
30	Gemma 4 31B Thinking Enabled DeepMind	—	80.00	—	—	Free commercial	Details
31	DeepSeek-V3.1 Terminus Thinking Enabled DeepSeek-AI	—	80.00	—	—	Free commercial	Details
32	Grok 4 Fast Thinking Enabled xAI	—	80.00	—	—	Proprietary	Details
33	Grok-3 - Reasoning Beta xAI	—	79.40	—	—	Proprietary	Details
34	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	63.20	77.10	—	—	Proprietary	Details
35	Gemma 4 26B A4B Thinking Enabled DeepMind	—	77.10	—	—	Free commercial	Details
36	Gemini 2.5-Pro Google Deep Mind	—	77.10	—	—	Proprietary	Details
37	ERNIE 5.0 Thinking Enabled 百度	—	76.21	—	—	Proprietary	Details
38	Claude Opus 4.6 Extended Thinking Anthropic	—	76.00	—	—	Proprietary	Details
39	OpenAI o3 OpenAI	—	75.80	—	—	Proprietary	Details
40	DeepSeek-V3.1 Terminus DeepSeek-AI	68.40	74.90	—	—	Free commercial	Details
41	DeepSeek-V3.1 Thinking Enabled DeepSeek-AI	—	74.80	—	—	Free commercial	Details
42	DeepSeek V3.2-Exp Thinking Enabled DeepSeek-AI	—	74.10	—	—	Free commercial	Details
43	Qwen3-235B-A22B-Thinking Thinking Enabled 阿里巴巴	—	74.10	—	—	Free commercial	Details
44	Qwen3-235B-A22B-Thinking-2507 Thinking Enabled 阿里巴巴	—	74.10	—	—	Free commercial	Details
45	Kimi-k1.6-IOI-high Moonshot AI	—	73.80	—	—	Proprietary	Details
46	DeepSeek-R1-0528 Thinking Enabled DeepSeek-AI	57.60	73.30	—	—	Free commercial	Details
47	GLM-4.5 Thinking Enabled 智谱AI	64.20	72.90	—	—	Free commercial	Details
48	OpenAI o1 OpenAI	48.90	71.00	—	—	Proprietary	Details
49	Claude Sonnet 4.5 Thinking Enabled Anthropic	—	71.00	43.60	—	Proprietary	Details
50	GLM-4.5-Air Thinking Enabled 智谱AI	57.60	70.70	—	—	Free commercial	Details

DeepSeek-V4-Pro DeepSeek-AI

Thinking Level · High

SWE-bench Verified—

LiveCodeBench93.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

Thinking Enabled

SWE-bench Verified76.20

LiveCodeBench92.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 3.1 Pro Preview Google Deep Mind

Thinking EnabledTools

SWE-bench Verified80.60

LiveCodeBench91.70

SWE-Bench Pro - Public54.20

SWE-bench Multilingual—

Proprietary

Qwen3.7-Max-Preview 阿里巴巴

Thinking Level · High

SWE-bench Verified—

LiveCodeBench91.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

DeepSeek-V4-Flash DeepSeek-AI

Thinking Level · High

SWE-bench Verified—

LiveCodeBench91.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

DeepSeek-V4-Pro DeepSeek-AI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench89.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Kimi K2.6 Moonshot AI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench89.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

DeepSeek-V4-Flash DeepSeek-AI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench88.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Gemini 2.5 Deep Think Google Deep Mind

Deep Thinking Mode

SWE-bench Verified—

LiveCodeBench87.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3.6-Max-Preview 阿里巴巴

Thinking Level · High

SWE-bench Verified—

LiveCodeBench87.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen 3.6 Plus Preview 阿里巴巴

Thinking Enabled

SWE-bench Verified—

LiveCodeBench87.10

SWE-Bench Pro - Public56.60

SWE-bench Multilingual73.80

Proprietary

Opus 4.5 Anthropic

Extended ThinkingTools

SWE-bench Verified80.90

LiveCodeBench87.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Step 3.5 Flash StepFunAI

Thinking Enabled

SWE-bench Verified74.40

LiveCodeBench86.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Qwen3-Max-Thinking 阿里巴巴

Thinking Enabled

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-5.1 Codex OpenAI

Thinking Level · HighTools

SWE-bench Verified70.40

LiveCodeBench85.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Kimi K2.5 Moonshot AI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench85.00

SWE-Bench Pro - Public—

SWE-bench Multilingual73.00

Free commercial

GLM-4.7 智谱AI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench84.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GLM-4.6 智谱AI

Thinking EnabledTools

SWE-bench Verified68.00

LiveCodeBench84.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Qwen3.6-27B 阿里巴巴

Thinking Enabled

SWE-bench Verified—

LiveCodeBench83.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Qwen3.5-397B-A17B 阿里巴巴

Thinking Enabled

SWE-bench Verified—

LiveCodeBench83.60

SWE-Bench Pro - Public50.90

SWE-bench Multilingual69.30

Free commercial

DeepSeek V3.2 DeepSeek-AI

Thinking Enabled

SWE-bench Verified70.20

LiveCodeBench83.30

SWE-Bench Pro - Public40.90

SWE-bench Multilingual—

Free commercial

Kimi K2 Thinking Moonshot AI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench83.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

MiniMax M2 MiniMaxAI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench83.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GLM-4.6 智谱AI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench82.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Grok 4 xAI

Thinking Enabled

SWE-bench Verified58.60

LiveCodeBench82.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok 4.1 Fast xAI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench82.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3.5-27B 阿里巴巴

Thinking EnabledTools

SWE-bench Verified—

LiveCodeBench80.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Qwen3.6-35B-A3B 阿里巴巴

Thinking Enabled

SWE-bench Verified73.40

LiveCodeBench80.40

SWE-Bench Pro - Public49.50

SWE-bench Multilingual67.20

Free commercial

Gemini 2.5 Pro Deep Think Google Deep Mind

SWE-bench Verified—

LiveCodeBench80.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemma 4 31B DeepMind

Thinking Enabled

SWE-bench Verified—

LiveCodeBench80.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

DeepSeek-V3.1 Terminus DeepSeek-AI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench80.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Grok 4 Fast xAI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench80.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok-3 - Reasoning Beta xAI

SWE-bench Verified—

LiveCodeBench79.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini-2.5-Pro-Preview-05-06 Google Deep Mind

SWE-bench Verified63.20

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemma 4 26B A4B DeepMind

Thinking Enabled

SWE-bench Verified—

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Gemini 2.5-Pro Google Deep Mind

SWE-bench Verified—

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

ERNIE 5.0 百度

Thinking Enabled

SWE-bench Verified—

LiveCodeBench76.21

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Opus 4.6 Anthropic

Extended Thinking

SWE-bench Verified—

LiveCodeBench76.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3 OpenAI

SWE-bench Verified—

LiveCodeBench75.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

DeepSeek-V3.1 Terminus DeepSeek-AI

SWE-bench Verified68.40

LiveCodeBench74.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

DeepSeek-V3.1 DeepSeek-AI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench74.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

DeepSeek V3.2-Exp DeepSeek-AI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench74.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Qwen3-235B-A22B-Thinking 阿里巴巴

Thinking Enabled

SWE-bench Verified—

LiveCodeBench74.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Qwen3-235B-A22B-Thinking-2507 阿里巴巴

Thinking Enabled

SWE-bench Verified—

LiveCodeBench74.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Kimi-k1.6-IOI-high Moonshot AI

SWE-bench Verified—

LiveCodeBench73.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

DeepSeek-R1-0528 DeepSeek-AI

Thinking Enabled

SWE-bench Verified57.60

LiveCodeBench73.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GLM-4.5 智谱AI

Thinking Enabled

SWE-bench Verified64.20

LiveCodeBench72.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

OpenAI o1 OpenAI

SWE-bench Verified48.90

LiveCodeBench71.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Sonnet 4.5 Anthropic

Thinking Enabled

SWE-bench Verified—

LiveCodeBench71.00

SWE-Bench Pro - Public43.60

SWE-bench Multilingual—

Proprietary

GLM-4.5-Air 智谱AI

Thinking Enabled

SWE-bench Verified57.60

LiveCodeBench70.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Sort by:

Showing 50 of 221 modelsView LiveCodeBench benchmark page