加载中...

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于: 2025/10/12 20:54:51

SWE-bench Verified LiveCodeBench HumanEval

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	SWE-bench Verified	LiveCodeBench	参数(亿)	开源情况
1	Claude Sonnet 4.5	82.00	0.00	—	不开源
2	Claude Sonnet 5	82.00	0.00	—	不开源
3	Claude Opus 4.5	80.90	0.00	—	不开源
4	Claude Opus 4.6	80.84	0.00	—	不开源
5	Gemini 3.1 Pro Preview	80.60	2887.00	—	不开源
6	Claude Sonnet 4	80.20	0.00	—	不开源
7	MiniMax M2.5	80.20	0.00	2290B	免费商用
8	GPT-5.2	80.00	0.00	—	不开源
9	Claude Sonnet 4.6	79.60	0.00	—	不开源
10	Claude Opus 4.1	79.40	0.00	—	不开源
11	Qwen 3.6 Plus Preview	78.80	0.00	—	不开源
12	GLM-5	77.80	0.00	7440B	免费商用
13	Claude Sonnet 4.5	77.20	0.00	—	不开源
14	GPT-5.1-Codex-Max	76.80	0.00	—	不开源
15	Kimi K2.5	76.80	0.00	10000B	免费商用
16	Qwen3.5-397B-A17B	76.40	0.00	397B	免费商用
17	GPT-5.1	76.30	0.00	—	不开源
18	GPT-5.1	76.30	0.00	—	不开源
19	Gemini 3.0 Pro (Preview 11-2025)	76.20	92.00	—	不开源
20	Qwen3-Max-Thinking	75.30	85.90	10000B	不开源
21	o3-pro	75.00	0.00	—	不开源
22	M2.1	74.80	0.00	2300B	免费商用
23	Claude Opus 4.1	74.50	0.00	—	不开源
24	Claude Opus 4.1	74.50	65.00	—	不开源
25	GPT-5 Codex	74.50	0.00	—	不开源
26	Step 3.5 Flash	74.40	86.40	1960B	免费商用
27	GLM-4.7	73.80	0.00	3580B	免费商用
28	Grok 4 Heavy	73.50	0.00	—	不开源
29	Haiku 4.5	73.30	0.00	—	不开源
30	DeepSeek V3.2	73.10	0.00	6710B	免费商用

Claude Sonnet 4.5

SWE-bench Verified82.00

LiveCodeBench0.00

HumanEval0.00

不开源

Claude Sonnet 5

SWE-bench Verified82.00

LiveCodeBench0.00

HumanEval0.00

不开源

Claude Opus 4.5

SWE-bench Verified80.90

LiveCodeBench0.00

HumanEval0.00

不开源

Claude Opus 4.6

SWE-bench Verified80.84

LiveCodeBench0.00

HumanEval0.00

不开源

Gemini 3.1 Pro Preview

SWE-bench Verified80.60

LiveCodeBench2887.00

HumanEval0.00

不开源

Claude Sonnet 4

SWE-bench Verified80.20

LiveCodeBench0.00

HumanEval0.00

不开源

MiniMax M2.5

2290B

SWE-bench Verified80.20

LiveCodeBench0.00

HumanEval0.00

免费商用

GPT-5.2

SWE-bench Verified80.00

LiveCodeBench0.00

HumanEval0.00

不开源

Claude Sonnet 4.6

SWE-bench Verified79.60

LiveCodeBench0.00

HumanEval0.00

不开源

Claude Opus 4.1

SWE-bench Verified79.40

LiveCodeBench0.00

HumanEval0.00

不开源

Qwen 3.6 Plus Preview

SWE-bench Verified78.80

LiveCodeBench0.00

HumanEval0.00

不开源

GLM-5

7440B

SWE-bench Verified77.80

LiveCodeBench0.00

HumanEval0.00

免费商用

Claude Sonnet 4.5

SWE-bench Verified77.20

LiveCodeBench0.00

HumanEval0.00

不开源

GPT-5.1-Codex-Max

SWE-bench Verified76.80

LiveCodeBench0.00

HumanEval0.00

不开源

Kimi K2.5

10000B

SWE-bench Verified76.80

LiveCodeBench0.00

HumanEval0.00

免费商用

Qwen3.5-397B-A17B

397B

SWE-bench Verified76.40

LiveCodeBench0.00

HumanEval0.00

免费商用

GPT-5.1

SWE-bench Verified76.30

LiveCodeBench0.00

HumanEval0.00

不开源

GPT-5.1

SWE-bench Verified76.30

LiveCodeBench0.00

HumanEval0.00

不开源

Gemini 3.0 Pro (Preview 11-2025)

SWE-bench Verified76.20

LiveCodeBench92.00

HumanEval0.00

不开源

Qwen3-Max-Thinking

10000B

SWE-bench Verified75.30

LiveCodeBench85.90

HumanEval0.00

不开源

o3-pro

SWE-bench Verified75.00

LiveCodeBench0.00

HumanEval0.00

不开源

M2.1

2300B

SWE-bench Verified74.80

LiveCodeBench0.00

HumanEval0.00

免费商用

Claude Opus 4.1

SWE-bench Verified74.50

LiveCodeBench0.00

HumanEval0.00

不开源

Claude Opus 4.1

SWE-bench Verified74.50

LiveCodeBench65.00

HumanEval0.00

不开源

GPT-5 Codex

SWE-bench Verified74.50

LiveCodeBench0.00

HumanEval0.00

不开源

Step 3.5 Flash

1960B

SWE-bench Verified74.40

LiveCodeBench86.40

HumanEval0.00

免费商用

GLM-4.7

3580B

SWE-bench Verified73.80

LiveCodeBench0.00

HumanEval0.00

免费商用

Grok 4 Heavy

SWE-bench Verified73.50

LiveCodeBench0.00

HumanEval0.00

不开源

Haiku 4.5

SWE-bench Verified73.30

LiveCodeBench0.00

HumanEval0.00

不开源

DeepSeek V3.2

6710B

SWE-bench Verified73.10

LiveCodeBench0.00

HumanEval0.00

免费商用

当前展示前 30 名，共 191 个模型

加载中...

返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于: 2025/10/12 20:54:51

SWE-bench Verified LiveCodeBench HumanEval

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	SWE-bench Verified	LiveCodeBench	参数(亿)	开源情况
1	Claude Sonnet 4.5	82.00	0.00	—	不开源
2	Claude Sonnet 5	82.00	0.00	—	不开源
3	Claude Opus 4.5	80.90	0.00	—	不开源
4	Claude Opus 4.6	80.84	0.00	—	不开源
5	Gemini 3.1 Pro Preview	80.60	2887.00	—	不开源
6	Claude Sonnet 4	80.20	0.00	—	不开源
7	MiniMax M2.5	80.20	0.00	2290B	免费商用
8	GPT-5.2	80.00	0.00	—	不开源
9	Claude Sonnet 4.6	79.60	0.00	—	不开源
10	Claude Opus 4.1	79.40	0.00	—	不开源
11	Qwen 3.6 Plus Preview	78.80	0.00	—	不开源
12	GLM-5	77.80	0.00	7440B	免费商用
13	Claude Sonnet 4.5	77.20	0.00	—	不开源
14	GPT-5.1-Codex-Max	76.80	0.00	—	不开源
15	Kimi K2.5	76.80	0.00	10000B	免费商用
16	Qwen3.5-397B-A17B	76.40	0.00	397B	免费商用
17	GPT-5.1	76.30	0.00	—	不开源
18	GPT-5.1	76.30	0.00	—	不开源
19	Gemini 3.0 Pro (Preview 11-2025)	76.20	92.00	—	不开源
20	Qwen3-Max-Thinking	75.30	85.90	10000B	不开源
21	o3-pro	75.00	0.00	—	不开源
22	M2.1	74.80	0.00	2300B	免费商用
23	Claude Opus 4.1	74.50	0.00	—	不开源
24	Claude Opus 4.1	74.50	65.00	—	不开源
25	GPT-5 Codex	74.50	0.00	—	不开源
26	Step 3.5 Flash	74.40	86.40	1960B	免费商用
27	GLM-4.7	73.80	0.00	3580B	免费商用
28	Grok 4 Heavy	73.50	0.00	—	不开源
29	Haiku 4.5	73.30	0.00	—	不开源
30	DeepSeek V3.2	73.10	0.00	6710B	免费商用