DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于: 2025/10/12 20:54:51
SWE-bench VerifiedLiveCodeBenchHumanEval
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI
排名模型SWE-bench VerifiedLiveCodeBenchHumanEval参数(亿)开源情况
1Claude Sonnet 4.582.0071.000.00—不开源
2GPT-5.2
80.00
0.00
0.00
—
不开源
3Claude Sonnet 4.679.600.000.00—不开源
4Qwen 3.6 Plus Preview78.8087.100.00—不开源
5GLM-577.800.000.007440B免费商用
6M2.174.800.000.002300B免费商用
7Step 3.5 Flash74.4086.400.001960B免费商用
8GLM-4.773.8084.900.003580B免费商用
9Grok 4 Heavy73.500.000.00—不开源
10Claude Sonnet 3.770.300.000.00—不开源
11Qwen3 Max (Preview)69.6057.500.00—不开源
12MiniMax M269.4083.000.002300B免费商用
13Kimi K2 090569.200.000.0010000B免费商用
14Gemini 3.0 Flash68.700.000.00—不开源
15DeepSeek-V3.1 Terminus68.4080.000.006710B免费商用
16GLM-4.668.0084.500.003550B免费商用
17DeepSeek-V3.166.0074.800.006710B免费商用
18GPT-4.154.6040.500.00—不开源
19Gemini 2.5 Flash-Preview-09-202554.000.000.00—不开源
20Kimi K251.8053.700.0010000B免费商用
21Claude 3.5 Sonnet New49.0038.7093.70—不开源
22DeepSeek-V3-032438.8049.200.006710B免费商用
23GPT-4.538.0046.400.00—不开源
24GPT-4o(2024-11-20)31.000.0090.20—不开源
25GPT-4.1 mini23.600.000.00—不开源
26Qwen3-30B-A3B-250722.0043.200.00305B免费商用
27Grok 4 Fast0.0080.000.00—不开源
28Gemini 2.0 Flash-Lite0.0028.900.00—不开源
29Qwen3-4B-25070.0035.100.0040B免费商用
30GPT-4o(2025-03-27)0.0035.800.00—不开源
1
Claude Sonnet 4.5
SWE-bench Verified82.00
LiveCodeBench71.00
HumanEval0.00
不开源
2
GPT-5.2
SWE-bench Verified80.00
LiveCodeBench0.00
HumanEval0.00
不开源
3
Claude Sonnet 4.6
SWE-bench Verified79.60
LiveCodeBench0.00
HumanEval0.00
不开源
4
Qwen 3.6 Plus Preview
SWE-bench Verified78.80
LiveCodeBench87.10
HumanEval0.00
不开源
5
GLM-5
7440B
SWE-bench Verified77.80
LiveCodeBench0.00
HumanEval0.00
免费商用
6
M2.1
2300B
SWE-bench Verified74.80
LiveCodeBench0.00
HumanEval0.00
免费商用
7
Step 3.5 Flash
1960B
SWE-bench Verified74.40
LiveCodeBench86.40
HumanEval0.00
免费商用
8
GLM-4.7
3580B
SWE-bench Verified73.80
LiveCodeBench84.90
HumanEval0.00
免费商用
9
Grok 4 Heavy
SWE-bench Verified73.50
LiveCodeBench0.00
HumanEval0.00
不开源
10
Claude Sonnet 3.7
SWE-bench Verified70.30
LiveCodeBench0.00
HumanEval0.00
不开源
11
Qwen3 Max (Preview)
SWE-bench Verified69.60
LiveCodeBench57.50
HumanEval0.00
不开源
12
MiniMax M2
2300B
SWE-bench Verified69.40
LiveCodeBench83.00
HumanEval0.00
免费商用
13
Kimi K2 0905
10000B
SWE-bench Verified69.20
LiveCodeBench0.00
HumanEval0.00
免费商用
14
Gemini 3.0 Flash
SWE-bench Verified68.70
LiveCodeBench0.00
HumanEval0.00
不开源
15
DeepSeek-V3.1 Terminus
6710B
SWE-bench Verified68.40
LiveCodeBench80.00
HumanEval0.00
免费商用
16
GLM-4.6
3550B
SWE-bench Verified68.00
LiveCodeBench84.50
HumanEval0.00
免费商用
17
DeepSeek-V3.1
6710B
SWE-bench Verified66.00
LiveCodeBench74.80
HumanEval0.00
免费商用
18
GPT-4.1
SWE-bench Verified54.60
LiveCodeBench40.50
HumanEval0.00
不开源
19
Gemini 2.5 Flash-Preview-09-2025
SWE-bench Verified54.00
LiveCodeBench0.00
HumanEval0.00
不开源
20
Kimi K2
10000B
SWE-bench Verified51.80
LiveCodeBench53.70
HumanEval0.00
免费商用
21
Claude 3.5 Sonnet New
SWE-bench Verified49.00
LiveCodeBench38.70
HumanEval93.70
不开源
22
DeepSeek-V3-0324
6710B
SWE-bench Verified38.80
LiveCodeBench49.20
HumanEval0.00
免费商用
23
GPT-4.5
SWE-bench Verified38.00
LiveCodeBench46.40
HumanEval0.00
不开源
24
GPT-4o(2024-11-20)
SWE-bench Verified31.00
LiveCodeBench0.00
HumanEval90.20
不开源
25
GPT-4.1 mini
SWE-bench Verified23.60
LiveCodeBench0.00
HumanEval0.00
不开源
26
Qwen3-30B-A3B-2507
305B
SWE-bench Verified22.00
LiveCodeBench43.20
HumanEval0.00
免费商用
27
Grok 4 Fast
SWE-bench Verified0.00
LiveCodeBench80.00
HumanEval0.00
不开源
28
Gemini 2.0 Flash-Lite
SWE-bench Verified0.00
LiveCodeBench28.90
HumanEval0.00
不开源
29
Qwen3-4B-2507
40B
SWE-bench Verified0.00
LiveCodeBench35.10
HumanEval0.00
免费商用
30
GPT-4o(2025-03-27)
SWE-bench Verified0.00
LiveCodeBench35.80
HumanEval0.00
不开源
当前展示前 30 名,共 50 个模型