DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于: 2025/10/12 20:54:51

评测切换

在这里切换评测,图表和表格会同步更新

SWE-bench VerifiedLiveCodeBenchHumanEval

还有更多评测基准

进入评测基准列表,按类别/语言快速筛选

更多评测

筛选

已筛选
全部3B及以下7B13B34B65B100B及以上
全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI
排名模型SWE-bench VerifiedLiveCodeBenchHumanEval参数(亿)开源情况
1Kimi K2.576.8085.000.0010000B免费商用
2Qwen3-Max-Thinking75.3085.900.0010000B不开源
3
o3-pro
75.00
0.00
0.00
—
不开源
4M2.174.800.000.002300B免费商用
5Step 3.5 Flash74.4086.400.001960B免费商用
6GLM-4.773.8084.900.003580B免费商用
7DeepSeek V3.273.1083.300.006710B免费商用
8Claude Opus 472.5056.600.00—不开源
9Kimi K2 Thinking71.3083.100.0010400B免费商用
10Claude Sonnet 3.770.300.000.00—不开源
11MiniMax M269.4083.000.002300B免费商用
12Kimi K2 090569.200.000.0010000B免费商用
13DeepSeek-V3.1 Terminus68.4080.000.006710B免费商用
14OpenAI o4 - mini68.100.000.00—不开源
15GLM-4.668.0084.500.003550B免费商用
16DeepSeek V3.2-Exp67.8074.100.006710B免费商用
17Qwen3-Coder-480B-A35B67.000.000.004800B免费商用
18DeepSeek-V3.166.0074.800.006710B免费商用
19GLM-4.564.2072.900.003550B免费商用
20Gemini-2.5-Pro-Preview-05-0663.2077.100.00—不开源
21DeepSeek-R1-052857.6073.300.006710B免费商用
22GLM-4.5-Air57.6070.700.001060B免费商用
23MiniMax-M1-80k56.0065.000.004560B免费商用
24MiniMax-M1-40k55.6062.300.004560B免费商用
25GPT-4.154.6040.500.00—不开源
26Kimi K251.8053.700.0010000B免费商用
27Gemini 2.5 Flash50.0055.400.00—不开源
28OpenAI o3-mini (high)49.3069.5097.60—不开源
29DeepSeek-R149.2065.900.006710B免费商用
30OpenAI o148.9071.000.00—不开源
31DeepSeek-V3-032438.8049.200.006710B免费商用
32GPT-4.538.0046.400.00—不开源
33Qwen3-235B-A22B34.4070.700.002350B免费商用
34Gemini 2.5 Flash-Lite27.6034.300.00—不开源
35GPT-4.1 mini23.600.000.00—不开源
36Gemini 2.0 Flash Experimental21.4029.100.00—不开源
37Kimi-k1.6-IOI-high0.0073.800.00—不开源
38Step30.0067.100.003210B免费商用
39Grok 30.0070.600.00—不开源
40OpenAI o3-mini (medium)0.0067.400.00—不开源
41Gemini 2.0 Flash-Lite0.0028.900.00—不开源
42Llama 4 Scout Instruct0.0032.800.001090B免费商用
43ERNIE-4.5-300B-A47B0.0038.800.003000B免费商用
44ERNIE-4.5-VL-424B-A47B-Base0.0038.800.004240B免费商用
45Llama 4 Maverick Instruct0.0043.400.004000B免费商用
46Llama 4 Behemoth Instruct0.0049.400.0020000B免费商用
47Qwen3-235B-A22B-25070.0051.800.002350B免费商用
48Magistral-Medium-25060.0059.360.00—不开源
49QwQ-Max-Preview0.0065.600.00—免费商用
50Kimi-k1.6-IOI0.0065.900.00—不开源
51Qwen3-235B-A22B-Thinking-25070.0074.100.002350B免费商用
52Grok-3 - Reasoning Beta0.0079.400.00—不开源
53Gemini 2.5 Pro Deep Think0.0080.400.00—不开源
54Qwen2.5-Max0.000.0073.20—不开源
55Grok-1.50.000.0074.10—不开源
56Codestral 25.010.0037.9086.60—不开源
57Grok 20.000.0088.402690B免费商用
58DeepSeek-V30.0034.6089.006810B免费商用
59Amazon Nova Pro0.000.0089.00—不开源
60Llama3.1-405B Instruct0.0030.2089.004050B免费商用
61GPT-4o(2024-11-20)0.000.0090.20—不开源
62Hunyuan-TurboS0.0032.0091.00—不开源
63Claude 3.5 Sonnet0.000.0092.00—不开源
64OpenAI o1-mini0.0052.0092.40—不开源
1
Kimi K2.5
10000B
SWE-bench Verified76.80
LiveCodeBench85.00
HumanEval0.00
免费商用
2
Qwen3-Max-Thinking
10000B
SWE-bench Verified75.30
LiveCodeBench85.90
HumanEval0.00
不开源
3
o3-pro
SWE-bench Verified75.00
LiveCodeBench0.00
HumanEval0.00
不开源
4
M2.1
2300B
SWE-bench Verified74.80
LiveCodeBench0.00
HumanEval0.00
免费商用
5
Step 3.5 Flash
1960B
SWE-bench Verified74.40
LiveCodeBench86.40
HumanEval0.00
免费商用
6
GLM-4.7
3580B
SWE-bench Verified73.80
LiveCodeBench84.90
HumanEval0.00
免费商用
7
DeepSeek V3.2
6710B
SWE-bench Verified73.10
LiveCodeBench83.30
HumanEval0.00
免费商用
8
Claude Opus 4
SWE-bench Verified72.50
LiveCodeBench56.60
HumanEval0.00
不开源
9
Kimi K2 Thinking
10400B
SWE-bench Verified71.30
LiveCodeBench83.10
HumanEval0.00
免费商用
10
Claude Sonnet 3.7
SWE-bench Verified70.30
LiveCodeBench0.00
HumanEval0.00
不开源
11
MiniMax M2
2300B
SWE-bench Verified69.40
LiveCodeBench83.00
HumanEval0.00
免费商用
12
Kimi K2 0905
10000B
SWE-bench Verified69.20
LiveCodeBench0.00
HumanEval0.00
免费商用
13
DeepSeek-V3.1 Terminus
6710B
SWE-bench Verified68.40
LiveCodeBench80.00
HumanEval0.00
免费商用
14
OpenAI o4 - mini
SWE-bench Verified68.10
LiveCodeBench0.00
HumanEval0.00
不开源
15
GLM-4.6
3550B
SWE-bench Verified68.00
LiveCodeBench84.50
HumanEval0.00
免费商用
16
DeepSeek V3.2-Exp
6710B
SWE-bench Verified67.80
LiveCodeBench74.10
HumanEval0.00
免费商用
17
Qwen3-Coder-480B-A35B
4800B
SWE-bench Verified67.00
LiveCodeBench0.00
HumanEval0.00
免费商用
18
DeepSeek-V3.1
6710B
SWE-bench Verified66.00
LiveCodeBench74.80
HumanEval0.00
免费商用
19
GLM-4.5
3550B
SWE-bench Verified64.20
LiveCodeBench72.90
HumanEval0.00
免费商用
20
Gemini-2.5-Pro-Preview-05-06
SWE-bench Verified63.20
LiveCodeBench77.10
HumanEval0.00
不开源
21
DeepSeek-R1-0528
6710B
SWE-bench Verified57.60
LiveCodeBench73.30
HumanEval0.00
免费商用
22
GLM-4.5-Air
1060B
SWE-bench Verified57.60
LiveCodeBench70.70
HumanEval0.00
免费商用
23
MiniMax-M1-80k
4560B
SWE-bench Verified56.00
LiveCodeBench65.00
HumanEval0.00
免费商用
24
MiniMax-M1-40k
4560B
SWE-bench Verified55.60
LiveCodeBench62.30
HumanEval0.00
免费商用
25
GPT-4.1
SWE-bench Verified54.60
LiveCodeBench40.50
HumanEval0.00
不开源
26
Kimi K2
10000B
SWE-bench Verified51.80
LiveCodeBench53.70
HumanEval0.00
免费商用
27
Gemini 2.5 Flash
SWE-bench Verified50.00
LiveCodeBench55.40
HumanEval0.00
不开源
28
OpenAI o3-mini (high)
SWE-bench Verified49.30
LiveCodeBench69.50
HumanEval97.60
不开源
29
DeepSeek-R1
6710B
SWE-bench Verified49.20
LiveCodeBench65.90
HumanEval0.00
免费商用
30
OpenAI o1
SWE-bench Verified48.90
LiveCodeBench71.00
HumanEval0.00
不开源
31
DeepSeek-V3-0324
6710B
SWE-bench Verified38.80
LiveCodeBench49.20
HumanEval0.00
免费商用
32
GPT-4.5
SWE-bench Verified38.00
LiveCodeBench46.40
HumanEval0.00
不开源
33
Qwen3-235B-A22B
2350B
SWE-bench Verified34.40
LiveCodeBench70.70
HumanEval0.00
免费商用
34
Gemini 2.5 Flash-Lite
SWE-bench Verified27.60
LiveCodeBench34.30
HumanEval0.00
不开源
35
GPT-4.1 mini
SWE-bench Verified23.60
LiveCodeBench0.00
HumanEval0.00
不开源
36
Gemini 2.0 Flash Experimental
SWE-bench Verified21.40
LiveCodeBench29.10
HumanEval0.00
不开源
37
Kimi-k1.6-IOI-high
SWE-bench Verified0.00
LiveCodeBench73.80
HumanEval0.00
不开源
38
Step3
3210B
SWE-bench Verified0.00
LiveCodeBench67.10
HumanEval0.00
免费商用
39
Grok 3
SWE-bench Verified0.00
LiveCodeBench70.60
HumanEval0.00
不开源
40
OpenAI o3-mini (medium)
SWE-bench Verified0.00
LiveCodeBench67.40
HumanEval0.00
不开源
41
Gemini 2.0 Flash-Lite
SWE-bench Verified0.00
LiveCodeBench28.90
HumanEval0.00
不开源
42
Llama 4 Scout Instruct
1090B
SWE-bench Verified0.00
LiveCodeBench32.80
HumanEval0.00
免费商用
43
ERNIE-4.5-300B-A47B
3000B
SWE-bench Verified0.00
LiveCodeBench38.80
HumanEval0.00
免费商用
44
ERNIE-4.5-VL-424B-A47B-Base
4240B
SWE-bench Verified0.00
LiveCodeBench38.80
HumanEval0.00
免费商用
45
Llama 4 Maverick Instruct
4000B
SWE-bench Verified0.00
LiveCodeBench43.40
HumanEval0.00
免费商用
46
Llama 4 Behemoth Instruct
20000B
SWE-bench Verified0.00
LiveCodeBench49.40
HumanEval0.00
免费商用
47
Qwen3-235B-A22B-2507
2350B
SWE-bench Verified0.00
LiveCodeBench51.80
HumanEval0.00
免费商用
48
Magistral-Medium-2506
SWE-bench Verified0.00
LiveCodeBench59.36
HumanEval0.00
不开源
49
QwQ-Max-Preview
SWE-bench Verified0.00
LiveCodeBench65.60
HumanEval0.00
免费商用
50
Kimi-k1.6-IOI
SWE-bench Verified0.00
LiveCodeBench65.90
HumanEval0.00
不开源
51
Qwen3-235B-A22B-Thinking-2507
2350B
SWE-bench Verified0.00
LiveCodeBench74.10
HumanEval0.00
免费商用
52
Grok-3 - Reasoning Beta
SWE-bench Verified0.00
LiveCodeBench79.40
HumanEval0.00
不开源
53
Gemini 2.5 Pro Deep Think
SWE-bench Verified0.00
LiveCodeBench80.40
HumanEval0.00
不开源
54
Qwen2.5-Max
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval73.20
不开源
55
Grok-1.5
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval74.10
不开源
56
Codestral 25.01
SWE-bench Verified0.00
LiveCodeBench37.90
HumanEval86.60
不开源
57
Grok 2
2690B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval88.40
免费商用
58
DeepSeek-V3
6810B
SWE-bench Verified0.00
LiveCodeBench34.60
HumanEval89.00
免费商用
59
Amazon Nova Pro
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval89.00
不开源
60
Llama3.1-405B Instruct
4050B
SWE-bench Verified0.00
LiveCodeBench30.20
HumanEval89.00
免费商用
61
GPT-4o(2024-11-20)
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval90.20
不开源
62
Hunyuan-TurboS
SWE-bench Verified0.00
LiveCodeBench32.00
HumanEval91.00
不开源
63
Claude 3.5 Sonnet
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval92.00
不开源
64
OpenAI o1-mini
SWE-bench Verified0.00
LiveCodeBench52.00
HumanEval92.40
不开源