LLM Coding Benchmark Leaderboard

Name: LLM Coding Benchmark Leaderboard
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

This page provides the LLM coding benchmark leaderboard, covering SWE-Bench Verified, SWE-Bench Pro, LiveCodeBench, and SWE-bench Multilingual datasets, comparing GPT, Claude, Qwen, and DeepSeek models.

Updated on 2026-07-18 08:01:52

As of 2026-07, this page covers SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual and related benchmarks for LLM Coding Benchmark Leaderboard, making it straightforward to compare within the same task family.

Click any model name to check context length, licensing, and pricing on its detail page. See Data Methodology for scoring details.

Reference: Composite Coding Rankings

There is no single, universally accepted coding leaderboard. Static benchmarks like SWE-bench and HumanEval measure specific skills but can be gamed through targeted fine-tuning. We selected two complementary human-preference leaderboards: LMArena Coding Arena ranks models on general programming tasks (debugging, algorithms, code generation) via anonymous crowd-sourced voting; DesignArena Code Category focuses specifically on visual, front-end code generation (websites, UI components, games) using the same blind-voting methodology. Reading both together gives a fuller picture of coding capability.

LMArena Coding Arena

Full ranking

Elo ratings from anonymous A/B voting on real general coding tasks (debugging, algorithms, code generation) submitted by developers.

Updated 2026-07-10

#ModelElo

Claude Fable 5Anthropic

1564

Opus 4.7 (thinking)Anthropic

1553

Claude Opus 4.6 (thinking)Anthropic

1550

Opus 4.7Anthropic

1550

Claude Opus 4.6Anthropic

1547

Claude Opus 4.8 (thinking)Anthropic

1537

Claude Opus 4.8Anthropic

1533

muse-spark-1.1Meta

1530

Claude Opus 4 (thinking-32k)Anthropic

1530

gpt-5.6-sol-xhighOpenAI

1528

Source: LMArena

DesignArena Code Category

Full ranking

Elo ratings from anonymous voting on visual front-end code tasks (websites, UI components, games, data viz) by Arcada Labs.

Updated 2026-07-12

#ModelElo

GLM 5.2Zhipu AI

1352

GPT-5.6 SolOpenAI

1350

Claude Fable 5Anthropic

1344

Claude Opus 4.6Anthropic

1336

Claude Opus 4.6 (thinking)Anthropic

1330

Opus 4.7Anthropic

1330

Grok 4.5xAI

1328

智

GLM 5.1智谱AI

1321

Kimi K2.6Moonshot AI

1320

Claude Sonnet 4.6Anthropic

1319

Source: DesignArena

Benchmark

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

More Benchmarks

Model Size:All 3B and below 7B 13B 34B 65B 100B and above

Model Type:All Reasoning Models Foundation Models Instruction/Chat Models Coding Models

Source:All Open Source Closed Source

Origin:All China

Model release cutoff:

Top picks

Ranked by SWE-bench Multilingual

Current SOTA

Claude Mythos Preview

Anthropic

87.30SWE-bench Multilingual

View model

Best Open-Source

Kimi K2.6

Moonshot AI

76.70SWE-bench Multilingual−10.60

View model

Best China-Made

Qwen3.7-Max-Preview

阿里巴巴

78.30SWE-bench Multilingual−9.00

View model

LLM Performance Results

Data source: DataLearnerAI

Click any row to open the model page. Tick the checkboxes to compare up to 4 models side by side.

Rank	Model					License
	Claude Mythos Preview Extended ThinkingTools Anthropic	93.90	—	77.80	87.30	Proprietary	Details
	Composer 2.5 Thinking Enabled Cursor	—	—	—	79.80	Proprietary	Details
	Qwen3.7-Max-Preview Thinking EnabledTools 阿里巴巴	80.40	—	60.60	78.30	Proprietary	Details
4	Kimi K2.6 Thinking EnabledTools Moonshot AI	80.20	—	58.60	76.70	Free commercial	Details
5	DeepSeek-V4-Pro Thinking Level · Extra HighTools DeepSeek-AI	80.60	—	55.40	76.20	Free commercial	Details
6	Hy3 Thinking EnabledTools 腾讯AI实验室	78.00	—	57.90	75.80	Free commercial	Details
7	DeepSeek-V4-Pro Thinking EnabledTools DeepSeek-AI	79.40	—	54.40	74.10	Free commercial	Details
8	Qwen3.6-Max-Preview Thinking EnabledTools 阿里巴巴	78.80	—	56.60	73.80	Proprietary	Details
9	Qwen 3.6 Plus Preview Thinking Enabled 阿里巴巴	—	87.10	56.60	73.80	Proprietary	Details
10	Composer 2 Thinking Enabled Cursor	—	—	—	73.70	Proprietary	Details
11	DeepSeek-V4-Flash Thinking Level · Extra HighTools DeepSeek-AI	79.00	—	52.60	73.30	Free commercial	Details
12	Kimi K2.5 Thinking Enabled Moonshot AI	—	85.00	—	73.00	Free commercial	Details
13	Claude Opus 4.6 Extended ThinkingTools Anthropic	80.84	—	—	72.00	Proprietary	Details
14	Doubao Seed 2.0 Pro Thinking EnabledTools 字节跳动Seed团队	76.50	—	46.90	71.70	Proprietary	Details
15	Qwen3.6-27B Thinking EnabledTools 阿里巴巴	77.20	—	53.50	71.30	Free commercial	Details
16	DeepSeek-V4-Flash Thinking EnabledTools DeepSeek-AI	78.60	—	52.30	70.20	Free commercial	Details
17	DeepSeek-V4-Pro Standard ModeTools DeepSeek-AI	73.60	—	52.10	69.80	Free commercial	Details
18	DeepSeek-V4-Flash Standard ModeTools DeepSeek-AI	73.70	—	49.10	69.70	Free commercial	Details
19	Qwen3.5-397B-A17B Thinking Enabled 阿里巴巴	—	83.60	50.90	69.30	Free commercial	Details
20	Qwen3.6-35B-A3B Thinking Enabled 阿里巴巴	73.40	80.40	49.50	67.20	Free commercial	Details
21	Composer 1.5 Thinking Enabled Cursor	—	—	—	65.90	Proprietary	Details
22	Composer 1 Thinking Enabled Cursor	—	—	—	56.90	Proprietary	Details
23	Claude Fable 5 Deep Thinking ModeTools Anthropic	95.00	—	80.30	—	Proprietary	Details
24	Claude Fable 5 Thinking EnabledTools Anthropic	95.00	—	—	—	Proprietary	Details
25	Claude Opus 4.8 Extended ThinkingTools Anthropic	88.60	—	69.20	—	Proprietary	Details
26	Opus 4.7 Extended ThinkingTools Anthropic	87.60	—	64.30	—	Proprietary	Details
27	Claude Sonnet 5 Thinking Level · Extra HighTools Anthropic	85.20	—	—	—	Proprietary	Details
28	Claude Sonnet 4.5 Parallel · Thinking EnabledTools Anthropic	82.00	—	—	—	Proprietary	Details
29	Opus 4.5 Extended ThinkingTools Anthropic	80.90	87.00	—	—	Proprietary	Details
30	Gemini 3.1 Pro Preview Thinking EnabledTools Google Deep Mind	80.60	91.70	54.20	—	Proprietary	Details
31	Claude Sonnet 4 Parallel · Thinking EnabledTools Anthropic	80.20	—	—	—	Proprietary	Details
32	MiniMax M2.5 Thinking EnabledTools MiniMaxAI	80.20	—	55.40	—	Free commercial	Details
33	GPT-5.2 Thinking Level · Extra HighTools OpenAI	80.00	—	55.60	—	Proprietary	Details
34	Claude Sonnet 4.6 Thinking Enabled Anthropic	79.60	—	—	—	Proprietary	Details
35	Qwen 3.6 Plus Preview Thinking EnabledTools 阿里巴巴	78.80	—	56.60	—	Proprietary	Details
36	GLM-5 Thinking Enabled 智谱AI	77.80	—	—	—	Free commercial	Details
37	Inkling Thinking EnabledTools Thinking Machines Lab	77.60	—	54.30	—	Free commercial	Details
38	Muse Spark Thinking EnabledTools Facebook AI研究实验室	77.40	—	—	—	Proprietary	Details
39	Claude Sonnet 4.5 Thinking EnabledTools Anthropic	77.20	—	—	—	Proprietary	Details
40	GPT-5.1-Codex-Max Thinking Level · HighTools OpenAI	76.80	—	—	—	Proprietary	Details
41	Kimi K2.5 Thinking EnabledTools Moonshot AI	76.80	—	50.70	—	Free commercial	Details
42	Qwen3.5-397B-A17B Thinking EnabledTools 阿里巴巴	76.40	—	—	—	Free commercial	Details
43	GPT-5.1 Thinking Level · High OpenAI	76.30	—	—	—	Proprietary	Details
44	GPT-5.1 Thinking EnabledTools OpenAI	76.30	—	—	—	Proprietary	Details
45	Gemini 3.0 Pro (Preview 11-2025) Thinking Enabled Google Deep Mind	76.20	92.00	—	—	Proprietary	Details
46	Qwen3-Max-Thinking Thinking Enabled 阿里巴巴	75.30	85.90	—	—	Proprietary	Details
47	o3-pro Thinking Level · High OpenAI	75.00	—	—	—	Proprietary	Details
48	M2.1 Thinking Enabled MiniMaxAI	74.80	—	—	—	Free commercial	Details
49	Opus 4.1 Extended ThinkingTools Anthropic	74.50	—	—	—	Proprietary	Details
50	GPT-5 Codex Thinking Level · High OpenAI	74.50	—	—	—	Proprietary	Details

Claude Mythos Preview Anthropic

Extended ThinkingTools

SWE-bench Verified93.90

LiveCodeBench—

SWE-Bench Pro - Public77.80

SWE-bench Multilingual87.30

Proprietary

Composer 2.5 Cursor

Thinking Enabled

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual79.80

Proprietary

Qwen3.7-Max-Preview 阿里巴巴

Thinking EnabledTools

SWE-bench Verified80.40

LiveCodeBench—

SWE-Bench Pro - Public60.60

SWE-bench Multilingual78.30

Proprietary

Kimi K2.6 Moonshot AI

Thinking EnabledTools

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public58.60

SWE-bench Multilingual76.70

Free commercial

DeepSeek-V4-Pro DeepSeek-AI

Thinking Level · Extra HighTools

SWE-bench Verified80.60

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual76.20

Free commercial

Hy3 腾讯AI实验室

Thinking EnabledTools

SWE-bench Verified78.00

LiveCodeBench—

SWE-Bench Pro - Public57.90

SWE-bench Multilingual75.80

Free commercial

DeepSeek-V4-Pro DeepSeek-AI

Thinking EnabledTools

SWE-bench Verified79.40

LiveCodeBench—

SWE-Bench Pro - Public54.40

SWE-bench Multilingual74.10

Free commercial

Qwen3.6-Max-Preview 阿里巴巴

Thinking EnabledTools

SWE-bench Verified78.80

LiveCodeBench—

SWE-Bench Pro - Public56.60

SWE-bench Multilingual73.80

Proprietary

Qwen 3.6 Plus Preview 阿里巴巴

Thinking Enabled

SWE-bench Verified—

LiveCodeBench87.10

SWE-Bench Pro - Public56.60

SWE-bench Multilingual73.80

Proprietary

Composer 2 Cursor

Thinking Enabled

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual73.70

Proprietary

DeepSeek-V4-Flash DeepSeek-AI

Thinking Level · Extra HighTools

SWE-bench Verified79.00

LiveCodeBench—

SWE-Bench Pro - Public52.60

SWE-bench Multilingual73.30

Free commercial

Kimi K2.5 Moonshot AI

Thinking Enabled

SWE-bench Verified—

LiveCodeBench85.00

SWE-Bench Pro - Public—

SWE-bench Multilingual73.00

Free commercial

Claude Opus 4.6 Anthropic

Extended ThinkingTools

SWE-bench Verified80.84

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual72.00

Proprietary

Doubao Seed 2.0 Pro 字节跳动Seed团队

Thinking EnabledTools

SWE-bench Verified76.50

LiveCodeBench—

SWE-Bench Pro - Public46.90

SWE-bench Multilingual71.70

Proprietary

Qwen3.6-27B 阿里巴巴

Thinking EnabledTools

SWE-bench Verified77.20

LiveCodeBench—

SWE-Bench Pro - Public53.50

SWE-bench Multilingual71.30

Free commercial

DeepSeek-V4-Flash DeepSeek-AI

Thinking EnabledTools

SWE-bench Verified78.60

LiveCodeBench—

SWE-Bench Pro - Public52.30

SWE-bench Multilingual70.20

Free commercial

DeepSeek-V4-Pro DeepSeek-AI

Standard ModeTools

SWE-bench Verified73.60

LiveCodeBench—

SWE-Bench Pro - Public52.10

SWE-bench Multilingual69.80

Free commercial

DeepSeek-V4-Flash DeepSeek-AI

Standard ModeTools

SWE-bench Verified73.70

LiveCodeBench—

SWE-Bench Pro - Public49.10

SWE-bench Multilingual69.70

Free commercial

Qwen3.5-397B-A17B 阿里巴巴

Thinking Enabled

SWE-bench Verified—

LiveCodeBench83.60

SWE-Bench Pro - Public50.90

SWE-bench Multilingual69.30

Free commercial

Qwen3.6-35B-A3B 阿里巴巴

Thinking Enabled

SWE-bench Verified73.40

LiveCodeBench80.40

SWE-Bench Pro - Public49.50

SWE-bench Multilingual67.20

Free commercial

Composer 1.5 Cursor

Thinking Enabled

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual65.90

Proprietary

Composer 1 Cursor

Thinking Enabled

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual56.90

Proprietary

Claude Fable 5 Anthropic

Deep Thinking ModeTools

SWE-bench Verified95.00

LiveCodeBench—

SWE-Bench Pro - Public80.30

SWE-bench Multilingual—

Proprietary

Claude Fable 5 Anthropic

Thinking EnabledTools

SWE-bench Verified95.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Opus 4.8 Anthropic

Extended ThinkingTools

SWE-bench Verified88.60

LiveCodeBench—

SWE-Bench Pro - Public69.20

SWE-bench Multilingual—

Proprietary

Opus 4.7 Anthropic

Extended ThinkingTools

SWE-bench Verified87.60

LiveCodeBench—

SWE-Bench Pro - Public64.30

SWE-bench Multilingual—

Proprietary

Claude Sonnet 5 Anthropic

Thinking Level · Extra HighTools

SWE-bench Verified85.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Sonnet 4.5 Anthropic

Parallel · Thinking EnabledTools

SWE-bench Verified82.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Opus 4.5 Anthropic

Extended ThinkingTools

SWE-bench Verified80.90

LiveCodeBench87.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 3.1 Pro Preview Google Deep Mind

Thinking EnabledTools

SWE-bench Verified80.60

LiveCodeBench91.70

SWE-Bench Pro - Public54.20

SWE-bench Multilingual—

Proprietary

Claude Sonnet 4 Anthropic

Parallel · Thinking EnabledTools

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

MiniMax M2.5 MiniMaxAI

Thinking EnabledTools

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual—

Free commercial

GPT-5.2 OpenAI

Thinking Level · Extra HighTools

SWE-bench Verified80.00

LiveCodeBench—

SWE-Bench Pro - Public55.60

SWE-bench Multilingual—

Proprietary

Claude Sonnet 4.6 Anthropic

Thinking Enabled

SWE-bench Verified79.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen 3.6 Plus Preview 阿里巴巴

Thinking EnabledTools

SWE-bench Verified78.80

LiveCodeBench—

SWE-Bench Pro - Public56.60

SWE-bench Multilingual—

Proprietary

GLM-5 智谱AI

Thinking Enabled

SWE-bench Verified77.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Inkling Thinking Machines Lab

Thinking EnabledTools

SWE-bench Verified77.60

LiveCodeBench—

SWE-Bench Pro - Public54.30

SWE-bench Multilingual—

Free commercial

Muse Spark Facebook AI研究实验室

Thinking EnabledTools

SWE-bench Verified77.40

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Sonnet 4.5 Anthropic

Thinking EnabledTools

SWE-bench Verified77.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-5.1-Codex-Max OpenAI

Thinking Level · HighTools

SWE-bench Verified76.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Kimi K2.5 Moonshot AI

Thinking EnabledTools

SWE-bench Verified76.80

LiveCodeBench—

SWE-Bench Pro - Public50.70

SWE-bench Multilingual—

Free commercial

Qwen3.5-397B-A17B 阿里巴巴

Thinking EnabledTools

SWE-bench Verified76.40

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

GPT-5.1 OpenAI

Thinking Level · High

SWE-bench Verified76.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-5.1 OpenAI

Thinking EnabledTools

SWE-bench Verified76.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

Thinking Enabled

SWE-bench Verified76.20

LiveCodeBench92.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3-Max-Thinking 阿里巴巴

Thinking Enabled

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

o3-pro OpenAI

Thinking Level · High

SWE-bench Verified75.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

M2.1 MiniMaxAI

Thinking Enabled

SWE-bench Verified74.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Free commercial

Opus 4.1 Anthropic

Extended ThinkingTools

SWE-bench Verified74.50

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-5 Codex OpenAI

Thinking Level · High

SWE-bench Verified74.50

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Sort by:

Showing 50 of 221 modelsView SWE-bench Multilingual benchmark page