Back to Main Leaderboard

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

Updated on: 2025/10/12 20:54:51

SWE-bench Verified LiveCodeBench HumanEval

More Benchmarks

Model Size:All 3B and below 7B 13B 34B 65B 100B and above

Model Type:All Reasoning Models Foundation Models Instruction/Chat Models Coding Models

LLM Performance Results

Data source: DataLearnerAI

Rank	Model	SWE-bench Verified	LiveCodeBench	HumanEval	Params (B)	License
1	Claude Sonnet 4.5	82.00	0.00	0.00	—	不开源
2	Claude Sonnet 5

1

Claude Sonnet 4.5

SWE-bench Verified82.00

LiveCodeBench0.00

HumanEval0.00

不开源

2

Claude Sonnet 5

SWE-bench Verified82.00

LiveCodeBench0.00

HumanEval0.00

不开源

3

Claude Opus 4.5

SWE-bench Verified80.90

LiveCodeBench0.00

HumanEval0.00

不开源

4

Claude Opus 4.6

SWE-bench Verified80.84

LiveCodeBench0.00

HumanEval0.00

不开源

5

Gemini 3.1 Pro Preview

SWE-bench Verified80.60

LiveCodeBench2887.00

HumanEval0.00

不开源

6

Claude Sonnet 4

SWE-bench Verified80.20

LiveCodeBench0.00

HumanEval0.00

不开源

7

2290B

SWE-bench Verified80.20

LiveCodeBench0.00

HumanEval0.00

Free commercial

8

SWE-bench Verified80.00

LiveCodeBench0.00

HumanEval0.00

不开源

9

Claude Sonnet 4.6

SWE-bench Verified79.60

LiveCodeBench0.00

HumanEval0.00

不开源

10

Claude Opus 4.1

SWE-bench Verified79.40

LiveCodeBench0.00

HumanEval0.00

不开源

11

Qwen 3.6 Plus Preview

SWE-bench Verified78.80

LiveCodeBench0.00

HumanEval0.00

不开源

12

7440B

SWE-bench Verified77.80

LiveCodeBench0.00

HumanEval0.00

Free commercial

13

Claude Sonnet 4.5

SWE-bench Verified77.20

LiveCodeBench0.00

HumanEval0.00

不开源

14

GPT-5.1-Codex-Max

SWE-bench Verified76.80

LiveCodeBench0.00

HumanEval0.00

不开源

15

10000B

SWE-bench Verified76.80

LiveCodeBench0.00

HumanEval0.00

Free commercial

16

Qwen3.5-397B-A17B

397B

SWE-bench Verified76.40

LiveCodeBench0.00

HumanEval0.00

Free commercial

17

SWE-bench Verified76.30

LiveCodeBench0.00

HumanEval0.00

不开源

18

SWE-bench Verified76.30

LiveCodeBench0.00

HumanEval0.00

不开源

19

Gemini 3.0 Pro (Preview 11-2025)

SWE-bench Verified76.20

LiveCodeBench92.00

HumanEval0.00

不开源

20

Qwen3-Max-Thinking

10000B

SWE-bench Verified75.30

LiveCodeBench85.90

HumanEval0.00

不开源

21

SWE-bench Verified75.00

LiveCodeBench0.00

HumanEval0.00

不开源

22

2300B

SWE-bench Verified74.80

LiveCodeBench0.00

HumanEval0.00

Free commercial

23

Claude Opus 4.1

SWE-bench Verified74.50

LiveCodeBench0.00

HumanEval0.00

不开源

24

Claude Opus 4.1

SWE-bench Verified74.50

LiveCodeBench65.00

HumanEval0.00

不开源

25

SWE-bench Verified74.50

LiveCodeBench0.00

HumanEval0.00

不开源

26

1960B

SWE-bench Verified74.40

LiveCodeBench86.40

HumanEval0.00

Free commercial

27

3580B

SWE-bench Verified73.80

LiveCodeBench0.00

HumanEval0.00

Free commercial

28

SWE-bench Verified73.50

LiveCodeBench0.00

HumanEval0.00

不开源

29

SWE-bench Verified73.30

LiveCodeBench0.00

HumanEval0.00

不开源

30

6710B

SWE-bench Verified73.10

LiveCodeBench0.00

HumanEval0.00

Free commercial