大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-04-25 14:44:58

截至 2026年4月，本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准，聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

基准评测

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型					参数(亿)	开源情况
1	Kimi K2.6	80.20	89.60	58.60	76.70	10000B	免费商用
2	DeepSeek-V4-Pro	80.60	93.50	55.40	76.20	16000B	免费商用
3	DeepSeek-V4-Flash	79.00	91.60	52.60	73.30	2840B	免费商用
4	Kimi K2.5	76.80	85.00	50.70	73.00	10000B	免费商用
5	MiniMax M2.5	80.20	—	55.40	—	2290B	免费商用
6	GLM-5	77.80	—	—	—	7440B	免费商用
7	Qwen3-Max-Thinking	75.30	85.90	—	—	10000B	不开源
8	o3-pro	75.00	—	—	—	—	不开源
9	M2.1	74.80	—	32.60	—	2300B	免费商用
10	Step 3.5 Flash	74.40	86.40	—	—	1960B	免费商用
11	GLM-4.7	73.80	84.90	40.60	—	3580B	免费商用
12	DeepSeek V3.2	73.10	83.30	40.90	—	6710B	免费商用
13	Claude Opus 4	72.50	56.60	—	—	—	不开源
14	Kimi K2 Thinking	71.30	83.10	—	—	10400B	免费商用
15	Claude Sonnet 3.7	70.30	—	—	—	—	不开源
16	MiniMax M2	69.40	83.00	—	—	2300B	免费商用
17	Kimi K2 0905	69.20	—	27.67	—	10000B	免费商用
18	DeepSeek-V3.1 Terminus	68.40	80.00	—	—	6710B	免费商用
19	OpenAI o4 - mini	68.10	—	—	—	—	不开源
20	GLM-4.6	68.00	84.50	—	—	3550B	免费商用
21	DeepSeek V3.2-Exp	67.80	74.10	—	—	6710B	免费商用
22	Qwen3-Coder-480B-A35B	67.00	—	—	—	4800B	免费商用
23	DeepSeek-V3.1	66.00	74.80	—	—	6710B	免费商用
24	GLM-4.5	64.20	72.90	—	—	3550B	免费商用
25	Gemini-2.5-Pro-Preview-05-06	63.20	77.10	—	—	—	不开源
26	DeepSeek-R1-0528	57.60	73.30	—	—	6710B	免费商用
27	GLM-4.5-Air	57.60	70.70	—	—	1060B	免费商用
28	MiniMax-M1-80k	56.00	65.00	—	—	4560B	免费商用
29	MiniMax-M1-40k	55.60	62.30	—	—	4560B	免费商用
30	GPT-4.1	54.60	40.50	—	—	—	不开源

Kimi K2.6

10000B

SWE-bench Verified80.20

LiveCodeBench89.60

SWE-Bench Pro - Public58.60

SWE-bench Multilingual76.70

免费商用

DeepSeek-V4-Pro

16000B

SWE-bench Verified80.60

LiveCodeBench93.50

SWE-Bench Pro - Public55.40

SWE-bench Multilingual76.20

免费商用

DeepSeek-V4-Flash

2840B

SWE-bench Verified79.00

LiveCodeBench91.60

SWE-Bench Pro - Public52.60

SWE-bench Multilingual73.30

免费商用

Kimi K2.5

10000B

SWE-bench Verified76.80

LiveCodeBench85.00

SWE-Bench Pro - Public50.70

SWE-bench Multilingual73.00

免费商用

MiniMax M2.5

2290B

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual—

免费商用

GLM-5

7440B

SWE-bench Verified77.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Qwen3-Max-Thinking

10000B

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

o3-pro

SWE-bench Verified75.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

M2.1

2300B

SWE-bench Verified74.80

LiveCodeBench—

SWE-Bench Pro - Public32.60

SWE-bench Multilingual—

免费商用

Step 3.5 Flash

1960B

SWE-bench Verified74.40

LiveCodeBench86.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GLM-4.7

3580B

SWE-bench Verified73.80

LiveCodeBench84.90

SWE-Bench Pro - Public40.60

SWE-bench Multilingual—

免费商用

DeepSeek V3.2

6710B

SWE-bench Verified73.10

LiveCodeBench83.30

SWE-Bench Pro - Public40.90

SWE-bench Multilingual—

免费商用

Claude Opus 4

SWE-bench Verified72.50

LiveCodeBench56.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

Kimi K2 Thinking

10400B

SWE-bench Verified71.30

LiveCodeBench83.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Claude Sonnet 3.7

SWE-bench Verified70.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

MiniMax M2

2300B

SWE-bench Verified69.40

LiveCodeBench83.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Kimi K2 0905

10000B

SWE-bench Verified69.20

LiveCodeBench—

SWE-Bench Pro - Public27.67

SWE-bench Multilingual—

免费商用

DeepSeek-V3.1 Terminus

6710B

SWE-bench Verified68.40

LiveCodeBench80.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

OpenAI o4 - mini

SWE-bench Verified68.10

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

GLM-4.6

3550B

SWE-bench Verified68.00

LiveCodeBench84.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek V3.2-Exp

6710B

SWE-bench Verified67.80

LiveCodeBench74.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Qwen3-Coder-480B-A35B

4800B

SWE-bench Verified67.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek-V3.1

6710B

SWE-bench Verified66.00

LiveCodeBench74.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GLM-4.5

3550B

SWE-bench Verified64.20

LiveCodeBench72.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Gemini-2.5-Pro-Preview-05-06

SWE-bench Verified63.20

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

DeepSeek-R1-0528

6710B

SWE-bench Verified57.60

LiveCodeBench73.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GLM-4.5-Air

1060B

SWE-bench Verified57.60

LiveCodeBench70.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

MiniMax-M1-80k

4560B

SWE-bench Verified56.00

LiveCodeBench65.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

MiniMax-M1-40k

4560B

SWE-bench Verified55.60

LiveCodeBench62.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GPT-4.1

SWE-bench Verified54.60

LiveCodeBench40.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

排序：

查看全部 66 个模型的 SWE-bench Multilingual 完整排名