返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于: 2025/10/12 20:54:51

SWE-bench Verified LiveCodeBench HumanEval

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	SWE-bench Verified	LiveCodeBench	HumanEval	参数(亿)	开源情况
1	Claude Sonnet 4.5	82.00	71.00	0.00	—	不开源
2	GPT-5.2

1

Claude Sonnet 4.5

SWE-bench Verified82.00

LiveCodeBench71.00

HumanEval0.00

不开源

2

SWE-bench Verified80.00

LiveCodeBench0.00

HumanEval0.00

不开源

3

Claude Sonnet 4.6

SWE-bench Verified79.60

LiveCodeBench0.00

HumanEval0.00

不开源

4

Qwen 3.6 Plus Preview

SWE-bench Verified78.80

LiveCodeBench87.10

HumanEval0.00

不开源

5

7440B

SWE-bench Verified77.80

LiveCodeBench0.00

HumanEval0.00

免费商用

6

2300B

SWE-bench Verified74.80

LiveCodeBench0.00

HumanEval0.00

免费商用

7

1960B

SWE-bench Verified74.40

LiveCodeBench86.40

HumanEval0.00

免费商用

8

3580B

SWE-bench Verified73.80

LiveCodeBench84.90

HumanEval0.00

免费商用

9

SWE-bench Verified73.50

LiveCodeBench0.00

HumanEval0.00

不开源

10

Claude Sonnet 3.7

SWE-bench Verified70.30

LiveCodeBench0.00

HumanEval0.00

不开源

11

Qwen3 Max (Preview)

SWE-bench Verified69.60

LiveCodeBench57.50

HumanEval0.00

不开源

12

2300B

SWE-bench Verified69.40

LiveCodeBench83.00

HumanEval0.00

免费商用

13

10000B

SWE-bench Verified69.20

LiveCodeBench0.00

HumanEval0.00

免费商用

14

Gemini 3.0 Flash

SWE-bench Verified68.70

LiveCodeBench0.00

HumanEval0.00

不开源

15

DeepSeek-V3.1 Terminus

6710B

SWE-bench Verified68.40

LiveCodeBench80.00

HumanEval0.00

免费商用

16

3550B

SWE-bench Verified68.00

LiveCodeBench84.50

HumanEval0.00

免费商用

17

6710B

SWE-bench Verified66.00

LiveCodeBench74.80

HumanEval0.00

免费商用

18

SWE-bench Verified54.60

LiveCodeBench40.50

HumanEval0.00

不开源

19

Gemini 2.5 Flash-Preview-09-2025

SWE-bench Verified54.00

LiveCodeBench0.00

HumanEval0.00

不开源

20

10000B

SWE-bench Verified51.80

LiveCodeBench53.70

HumanEval0.00

免费商用

21

Claude 3.5 Sonnet New

SWE-bench Verified49.00

LiveCodeBench38.70

HumanEval93.70

不开源

22

DeepSeek-V3-0324

6710B

SWE-bench Verified38.80

LiveCodeBench49.20

HumanEval0.00

免费商用

23

SWE-bench Verified38.00

LiveCodeBench46.40

HumanEval0.00

不开源

24

GPT-4o(2024-11-20)

SWE-bench Verified31.00

LiveCodeBench0.00

HumanEval90.20

不开源

25

SWE-bench Verified23.60

LiveCodeBench0.00

HumanEval0.00

不开源

26

Qwen3-30B-A3B-2507

305B

SWE-bench Verified22.00

LiveCodeBench43.20

HumanEval0.00

免费商用

27

SWE-bench Verified0.00

LiveCodeBench80.00

HumanEval0.00

不开源

28

Gemini 2.0 Flash-Lite

SWE-bench Verified0.00

LiveCodeBench28.90

HumanEval0.00

不开源

29

40B

SWE-bench Verified0.00

LiveCodeBench35.10

HumanEval0.00

免费商用

30

GPT-4o(2025-03-27)

SWE-bench Verified0.00

LiveCodeBench35.80

HumanEval0.00

不开源