DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于: 2025/10/12 20:54:51
SWE-bench VerifiedLiveCodeBenchHumanEval
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI
排名模型SWE-bench VerifiedLiveCodeBenchHumanEval参数(亿)开源情况
1GPT-5.1-Codex-Max76.800.000.00—不开源
2GPT-5 Codex
74.50
0.00
0.00
—
不开源
3Grok 4 Code72.000.000.00—不开源
4Grok Code Fast 170.800.000.00—不开源
5Qwen3-Coder-Next70.600.000.0080B免费商用
6GPT-5.1 Codex70.4085.500.00—不开源
7Qwen3-Coder-480B-A35B67.000.000.004800B免费商用
8Devstral Medium61.600.000.00—不开源
9Devstral Small 1.153.600.000.00240B免费商用
10Qwen3-Coder-Flash51.600.000.00305B免费商用
11Devstral Small 1.046.800.000.00240B免费商用
12Codestral 25.010.0037.9086.60—不开源
13Codestral0.0031.5081.10220B不可商用
1
GPT-5.1-Codex-Max
SWE-bench Verified76.80
LiveCodeBench0.00
HumanEval0.00
不开源
2
GPT-5 Codex
SWE-bench Verified74.50
LiveCodeBench0.00
HumanEval0.00
不开源
3
Grok 4 Code
SWE-bench Verified72.00
LiveCodeBench0.00
HumanEval0.00
不开源
4
Grok Code Fast 1
SWE-bench Verified70.80
LiveCodeBench0.00
HumanEval0.00
不开源
5
Qwen3-Coder-Next
80B
SWE-bench Verified70.60
LiveCodeBench0.00
HumanEval0.00
免费商用
6
GPT-5.1 Codex
SWE-bench Verified70.40
LiveCodeBench85.50
HumanEval0.00
不开源
7
Qwen3-Coder-480B-A35B
4800B
SWE-bench Verified67.00
LiveCodeBench0.00
HumanEval0.00
免费商用
8
Devstral Medium
SWE-bench Verified61.60
LiveCodeBench0.00
HumanEval0.00
不开源
9
Devstral Small 1.1
240B
SWE-bench Verified53.60
LiveCodeBench0.00
HumanEval0.00
免费商用
10
Qwen3-Coder-Flash
305B
SWE-bench Verified51.60
LiveCodeBench0.00
HumanEval0.00
免费商用
11
Devstral Small 1.0
240B
SWE-bench Verified46.80
LiveCodeBench0.00
HumanEval0.00
免费商用
12
Codestral 25.01
SWE-bench Verified0.00
LiveCodeBench37.90
HumanEval86.60
不开源
13
Codestral
220B
SWE-bench Verified0.00
LiveCodeBench31.50
HumanEval81.10
不可商用