DataLearnerAI
切换导航菜单
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言
中文
中
中文
EN
English
搜索博客
中
EN
返回总榜单
大模型
代码编程
能力评测排行榜
本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。
数据更新于: 2025/10/12 20:54:51
SWE-bench Verified
LiveCodeBench
HumanEval
更多评测
参数规模:
全部
3B及以下
7B
13B
34B
65B
100B及以上
模型类型:
全部
推理大模型
基座大模型
指令优化/聊天优化大模型
编程大模型
大模型性能评测结果
数据来源:DataLearnerAI
排名
模型
SWE-bench Verified
LiveCodeBench
HumanEval
参数(亿)
开源情况
1
Claude Sonnet 4.5
82.00
0.00
0.00
—
不开源
2
Claude Sonnet 5
82.00
0.00
0.00
—
不开源
3
Claude Opus 4.5
80.90
0.00
0.00
—
不开源
4
Claude Opus 4.6
80.84
0.00
0.00
—
不开源
5
Gemini 3.1 Pro Preview
80.60
2887.00
0.00
—
不开源
6
Claude Sonnet 4
80.20
0.00
0.00
—
不开源
7
MiniMax M2.5
80.20
0.00
0.00
2290B
免费商用
8
GPT-5.2
80.00
0.00
0.00
—
不开源
9
Claude Sonnet 4.6
79.60
0.00
0.00
—
不开源
10
Claude Opus 4.1
79.40
0.00
0.00
—
不开源
11
Qwen 3.6 Plus Preview
78.80
0.00
0.00
—
不开源
12
GLM-5
77.80
0.00
0.00
7440B
免费商用
13
Claude Sonnet 4.5
77.20
0.00
0.00
—
不开源
14
GPT-5.1-Codex-Max
76.80
0.00
0.00
—
不开源
15
Kimi K2.5
76.80
0.00
0.00
10000B
免费商用
16
Qwen3.5-397B-A17B
76.40
0.00
0.00
397B
免费商用
17
GPT-5.1
76.30
0.00
0.00
—
不开源
18
GPT-5.1
76.30
0.00
0.00
—
不开源
19
Gemini 3.0 Pro (Preview 11-2025)
76.20
92.00
0.00
—
不开源
20
Qwen3-Max-Thinking
75.30
85.90
0.00
10000B
不开源
21
o3-pro
75.00
0.00
0.00
—
不开源
22
M2.1
74.80
0.00
0.00
2300B
免费商用
23
Claude Opus 4.1
74.50
0.00
0.00
—
不开源
24
Claude Opus 4.1
74.50
65.00
0.00
—
不开源
25
GPT-5 Codex
74.50
0.00
0.00
—
不开源
26
Step 3.5 Flash
74.40
86.40
0.00
1960B
免费商用
27
GLM-4.7
73.80
0.00
0.00
3580B
免费商用
28
Grok 4 Heavy
73.50
0.00
0.00
—
不开源
29
Haiku 4.5
73.30
0.00
0.00
—
不开源
30
DeepSeek V3.2
73.10
0.00
0.00
6710B
免费商用
1
Claude Sonnet 4.5
SWE-bench Verified
82.00
LiveCodeBench
0.00
HumanEval
0.00
不开源
2
Claude Sonnet 5
SWE-bench Verified
82.00
LiveCodeBench
0.00
HumanEval
0.00
不开源
3
Claude Opus 4.5
SWE-bench Verified
80.90
LiveCodeBench
0.00
HumanEval
0.00
不开源
4
Claude Opus 4.6
SWE-bench Verified
80.84
LiveCodeBench
0.00
HumanEval
0.00
不开源
5
Gemini 3.1 Pro Preview
SWE-bench Verified
80.60
LiveCodeBench
2887.00
HumanEval
0.00
不开源
6
Claude Sonnet 4
SWE-bench Verified
80.20
LiveCodeBench
0.00
HumanEval
0.00
不开源
7
MiniMax M2.5
2290B
SWE-bench Verified
80.20
LiveCodeBench
0.00
HumanEval
0.00
免费商用
8
GPT-5.2
SWE-bench Verified
80.00
LiveCodeBench
0.00
HumanEval
0.00
不开源
9
Claude Sonnet 4.6
SWE-bench Verified
79.60
LiveCodeBench
0.00
HumanEval
0.00
不开源
10
Claude Opus 4.1
SWE-bench Verified
79.40
LiveCodeBench
0.00
HumanEval
0.00
不开源
11
Qwen 3.6 Plus Preview
SWE-bench Verified
78.80
LiveCodeBench
0.00
HumanEval
0.00
不开源
12
GLM-5
7440B
SWE-bench Verified
77.80
LiveCodeBench
0.00
HumanEval
0.00
免费商用
13
Claude Sonnet 4.5
SWE-bench Verified
77.20
LiveCodeBench
0.00
HumanEval
0.00
不开源
14
GPT-5.1-Codex-Max
SWE-bench Verified
76.80
LiveCodeBench
0.00
HumanEval
0.00
不开源
15
Kimi K2.5
10000B
SWE-bench Verified
76.80
LiveCodeBench
0.00
HumanEval
0.00
免费商用
16
Qwen3.5-397B-A17B
397B
SWE-bench Verified
76.40
LiveCodeBench
0.00
HumanEval
0.00
免费商用
17
GPT-5.1
SWE-bench Verified
76.30
LiveCodeBench
0.00
HumanEval
0.00
不开源
18
GPT-5.1
SWE-bench Verified
76.30
LiveCodeBench
0.00
HumanEval
0.00
不开源
19
Gemini 3.0 Pro (Preview 11-2025)
SWE-bench Verified
76.20
LiveCodeBench
92.00
HumanEval
0.00
不开源
20
Qwen3-Max-Thinking
10000B
SWE-bench Verified
75.30
LiveCodeBench
85.90
HumanEval
0.00
不开源
21
o3-pro
SWE-bench Verified
75.00
LiveCodeBench
0.00
HumanEval
0.00
不开源
22
M2.1
2300B
SWE-bench Verified
74.80
LiveCodeBench
0.00
HumanEval
0.00
免费商用
23
Claude Opus 4.1
SWE-bench Verified
74.50
LiveCodeBench
0.00
HumanEval
0.00
不开源
24
Claude Opus 4.1
SWE-bench Verified
74.50
LiveCodeBench
65.00
HumanEval
0.00
不开源
25
GPT-5 Codex
SWE-bench Verified
74.50
LiveCodeBench
0.00
HumanEval
0.00
不开源
26
Step 3.5 Flash
1960B
SWE-bench Verified
74.40
LiveCodeBench
86.40
HumanEval
0.00
免费商用
27
GLM-4.7
3580B
SWE-bench Verified
73.80
LiveCodeBench
0.00
HumanEval
0.00
免费商用
28
Grok 4 Heavy
SWE-bench Verified
73.50
LiveCodeBench
0.00
HumanEval
0.00
不开源
29
Haiku 4.5
SWE-bench Verified
73.30
LiveCodeBench
0.00
HumanEval
0.00
不开源
30
DeepSeek V3.2
6710B
SWE-bench Verified
73.10
LiveCodeBench
0.00
HumanEval
0.00
免费商用
当前展示前 30 名,共 191 个模型