DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、HumanEval、CodeForces、SWE-bench Multilingual 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-04-11 22:32:50

截至 2026年4月,本页覆盖 SWE-bench Verified, LiveCodeBench, HumanEval, CodeForces 等评测基准,聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
SWE-bench VerifiedLiveCodeBenchHumanEvalCodeForcesSWE-Bench Pro - PublicSWE-bench Multilingual
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源

大模型性能评测结果

数据来源:DataLearnerAI
排名模型参数(亿)开源情况
1Claude Mythos Preview
扩展 · 工具
93.90———77.8087.30—不开源
2Claude Sonnet 4.5
parallel_thinking + 使用工具 · 工具 · 并行
82.00——————不开源
3Claude Sonnet 5
parallel_thinking · 并行
82.00——————不开源
4Claude Opus 4.5
thinking
80.90——————不开源
5Claude Opus 4.6
扩展 · 工具
80.84————72.00—不开源
6Gemini 3.1 Pro Preview
思考模式 High · 工具
80.6091.70——54.20——不开源
7Claude Sonnet 4
parallel_thinking + 使用工具 · 工具 · 并行
80.20——————不开源
8MiniMax M2.5
thinking + 使用工具 · 工具
80.20———55.40—2290B免费商用
9GPT-5.2
极高强度思考 · 工具
80.00———55.60——不开源
10Claude Sonnet 4.6
thinking
79.60——————不开源
11Claude Opus 4.1
parallel_thinking + 使用工具 · 工具 · 并行
79.40——————不开源
12Qwen 3.6 Plus Preview
思考模式 · 工具
78.80———56.60——不开源
13GLM-5
思考模式
77.80—————7440B免费商用
14Muse Spark
思考模式 · 工具
77.40——————不开源
15Claude Sonnet 4.5
thinking + 使用工具 · 工具
77.20——————不开源
16GPT-5.1-Codex-Max
high + 使用工具 · 工具
76.80——————不开源
17Kimi K2.5
思考模式 · 工具
76.80———50.70—10000B免费商用
18Qwen3.5-397B-A17B
思考模式 · 工具
76.40—————397B免费商用
19GPT-5.1
思考模式 High · 工具
76.30——————不开源
20GPT-5.1
high
76.30——————不开源
21Gemini 3.0 Pro (Preview 11-2025)
thinking
76.2092.00—————不开源
22Qwen3-Max-Thinking
thinking
75.3085.90————10000B不开源
23o3-pro
high
75.00——————不开源
24M2.1
thinking
74.80—————2300B免费商用
25Claude Opus 4.1
thinking
74.50——————不开源
26Claude Opus 4.1
thinking + 使用工具 · 工具
74.5065.00—————不开源
27GPT-5 Codex
high
74.50——————不开源
28Step 3.5 Flash
thinking
74.4086.40————1960B免费商用
29GLM-4.7
thinking + 使用工具 · 工具
73.80———40.60—3580B免费商用
30Grok 4 Heavy
parallel_thinking + 使用工具 · 工具 · 并行
73.50——————不开源
1
Claude Mythos Preview扩展 · 工具
SWE-bench Verified93.90
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public77.80
SWE-bench Multilingual87.30
不开源
2
Claude Sonnet 4.5parallel_thinking + 使用工具 · 工具 · 并行
SWE-bench Verified82.00
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
3
Claude Sonnet 5parallel_thinking · 并行
SWE-bench Verified82.00
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
4
Claude Opus 4.5thinking
SWE-bench Verified80.90
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
5
Claude Opus 4.6扩展 · 工具
SWE-bench Verified80.84
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual72.00
不开源
6
Gemini 3.1 Pro Preview思考模式 High · 工具
SWE-bench Verified80.60
LiveCodeBench91.70
HumanEval—
CodeForces—
SWE-Bench Pro - Public54.20
SWE-bench Multilingual—
不开源
7
Claude Sonnet 4parallel_thinking + 使用工具 · 工具 · 并行
SWE-bench Verified80.20
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
8
MiniMax M2.5thinking + 使用工具 · 工具
2290B
SWE-bench Verified80.20
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public55.40
SWE-bench Multilingual—
免费商用
9
GPT-5.2极高强度思考 · 工具
SWE-bench Verified80.00
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public55.60
SWE-bench Multilingual—
不开源
10
Claude Sonnet 4.6thinking
SWE-bench Verified79.60
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
11
Claude Opus 4.1parallel_thinking + 使用工具 · 工具 · 并行
SWE-bench Verified79.40
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
12
Qwen 3.6 Plus Preview思考模式 · 工具
SWE-bench Verified78.80
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public56.60
SWE-bench Multilingual—
不开源
13
GLM-5思考模式
7440B
SWE-bench Verified77.80
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
14
Muse Spark思考模式 · 工具
SWE-bench Verified77.40
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
15
Claude Sonnet 4.5thinking + 使用工具 · 工具
SWE-bench Verified77.20
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
16
GPT-5.1-Codex-Maxhigh + 使用工具 · 工具
SWE-bench Verified76.80
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
17
Kimi K2.5思考模式 · 工具
10000B
SWE-bench Verified76.80
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public50.70
SWE-bench Multilingual—
免费商用
18
Qwen3.5-397B-A17B思考模式 · 工具
397B
SWE-bench Verified76.40
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
19
GPT-5.1思考模式 High · 工具
SWE-bench Verified76.30
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
20
GPT-5.1high
SWE-bench Verified76.30
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
21
Gemini 3.0 Pro (Preview 11-2025)thinking
SWE-bench Verified76.20
LiveCodeBench92.00
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
22
Qwen3-Max-Thinkingthinking
10000B
SWE-bench Verified75.30
LiveCodeBench85.90
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
23
o3-prohigh
SWE-bench Verified75.00
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
24
M2.1thinking
2300B
SWE-bench Verified74.80
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
25
Claude Opus 4.1thinking
SWE-bench Verified74.50
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
26
Claude Opus 4.1thinking + 使用工具 · 工具
SWE-bench Verified74.50
LiveCodeBench65.00
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
27
GPT-5 Codexhigh
SWE-bench Verified74.50
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
28
Step 3.5 Flashthinking
1960B
SWE-bench Verified74.40
LiveCodeBench86.40
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
29
GLM-4.7thinking + 使用工具 · 工具
3580B
SWE-bench Verified73.80
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public40.60
SWE-bench Multilingual—
免费商用
30
Grok 4 Heavyparallel_thinking + 使用工具 · 工具 · 并行
SWE-bench Verified73.50
LiveCodeBench—
HumanEval—
CodeForces—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
不开源
排序:
当前展示前 30 名,共 211 个模型