DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于: 2025/10/12 20:54:51
SWE-bench VerifiedLiveCodeBenchHumanEval
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI
排名模型SWE-bench VerifiedLiveCodeBenchHumanEval参数(亿)开源情况
1MiniMax M2.580.200.000.002290B免费商用
2GLM-5
77.80
0.00
0.00
7440B
免费商用
3Kimi K2.576.8085.000.0010000B免费商用
4Qwen3-Max-Thinking75.3085.900.0010000B不开源
5o3-pro75.000.000.00—不开源
6M2.174.800.000.002300B免费商用
7Step 3.5 Flash74.4086.400.001960B免费商用
8GLM-4.773.8084.900.003580B免费商用
9DeepSeek V3.273.1083.300.006710B免费商用
10Claude Opus 472.5056.600.00—不开源
11Kimi K2 Thinking71.3083.100.0010400B免费商用
12Claude Sonnet 3.770.300.000.00—不开源
13MiniMax M269.4083.000.002300B免费商用
14Kimi K2 090569.200.000.0010000B免费商用
15DeepSeek-V3.1 Terminus68.4080.000.006710B免费商用
16OpenAI o4 - mini68.100.000.00—不开源
17GLM-4.668.0084.500.003550B免费商用
18DeepSeek V3.2-Exp67.8074.100.006710B免费商用
19Qwen3-Coder-480B-A35B67.000.000.004800B免费商用
20DeepSeek-V3.166.0074.800.006710B免费商用
21GLM-4.564.2072.900.003550B免费商用
22Gemini-2.5-Pro-Preview-05-0663.2077.100.00—不开源
23DeepSeek-R1-052857.6073.300.006710B免费商用
24GLM-4.5-Air57.6070.700.001060B免费商用
25MiniMax-M1-80k56.0065.000.004560B免费商用
26MiniMax-M1-40k55.6062.300.004560B免费商用
27GPT-4.154.6040.500.00—不开源
28Kimi K251.8053.700.0010000B免费商用
29Gemini 2.5 Flash50.0055.400.00—不开源
30OpenAI o3-mini (high)49.3069.5097.60—不开源
1
MiniMax M2.5
2290B
SWE-bench Verified80.20
LiveCodeBench0.00
HumanEval0.00
免费商用
2
GLM-5
7440B
SWE-bench Verified77.80
LiveCodeBench0.00
HumanEval0.00
免费商用
3
Kimi K2.5
10000B
SWE-bench Verified76.80
LiveCodeBench85.00
HumanEval0.00
免费商用
4
Qwen3-Max-Thinking
10000B
SWE-bench Verified75.30
LiveCodeBench85.90
HumanEval0.00
不开源
5
o3-pro
SWE-bench Verified75.00
LiveCodeBench0.00
HumanEval0.00
不开源
6
M2.1
2300B
SWE-bench Verified74.80
LiveCodeBench0.00
HumanEval0.00
免费商用
7
Step 3.5 Flash
1960B
SWE-bench Verified74.40
LiveCodeBench86.40
HumanEval0.00
免费商用
8
GLM-4.7
3580B
SWE-bench Verified73.80
LiveCodeBench84.90
HumanEval0.00
免费商用
9
DeepSeek V3.2
6710B
SWE-bench Verified73.10
LiveCodeBench83.30
HumanEval0.00
免费商用
10
Claude Opus 4
SWE-bench Verified72.50
LiveCodeBench56.60
HumanEval0.00
不开源
11
Kimi K2 Thinking
10400B
SWE-bench Verified71.30
LiveCodeBench83.10
HumanEval0.00
免费商用
12
Claude Sonnet 3.7
SWE-bench Verified70.30
LiveCodeBench0.00
HumanEval0.00
不开源
13
MiniMax M2
2300B
SWE-bench Verified69.40
LiveCodeBench83.00
HumanEval0.00
免费商用
14
Kimi K2 0905
10000B
SWE-bench Verified69.20
LiveCodeBench0.00
HumanEval0.00
免费商用
15
DeepSeek-V3.1 Terminus
6710B
SWE-bench Verified68.40
LiveCodeBench80.00
HumanEval0.00
免费商用
16
OpenAI o4 - mini
SWE-bench Verified68.10
LiveCodeBench0.00
HumanEval0.00
不开源
17
GLM-4.6
3550B
SWE-bench Verified68.00
LiveCodeBench84.50
HumanEval0.00
免费商用
18
DeepSeek V3.2-Exp
6710B
SWE-bench Verified67.80
LiveCodeBench74.10
HumanEval0.00
免费商用
19
Qwen3-Coder-480B-A35B
4800B
SWE-bench Verified67.00
LiveCodeBench0.00
HumanEval0.00
免费商用
20
DeepSeek-V3.1
6710B
SWE-bench Verified66.00
LiveCodeBench74.80
HumanEval0.00
免费商用
21
GLM-4.5
3550B
SWE-bench Verified64.20
LiveCodeBench72.90
HumanEval0.00
免费商用
22
Gemini-2.5-Pro-Preview-05-06
SWE-bench Verified63.20
LiveCodeBench77.10
HumanEval0.00
不开源
23
DeepSeek-R1-0528
6710B
SWE-bench Verified57.60
LiveCodeBench73.30
HumanEval0.00
免费商用
24
GLM-4.5-Air
1060B
SWE-bench Verified57.60
LiveCodeBench70.70
HumanEval0.00
免费商用
25
MiniMax-M1-80k
4560B
SWE-bench Verified56.00
LiveCodeBench65.00
HumanEval0.00
免费商用
26
MiniMax-M1-40k
4560B
SWE-bench Verified55.60
LiveCodeBench62.30
HumanEval0.00
免费商用
27
GPT-4.1
SWE-bench Verified54.60
LiveCodeBench40.50
HumanEval0.00
不开源
28
Kimi K2
10000B
SWE-bench Verified51.80
LiveCodeBench53.70
HumanEval0.00
免费商用
29
Gemini 2.5 Flash
SWE-bench Verified50.00
LiveCodeBench55.40
HumanEval0.00
不开源
30
OpenAI o3-mini (high)
SWE-bench Verified49.30
LiveCodeBench69.50
HumanEval97.60
不开源
当前展示前 30 名,共 67 个模型