返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-06-17 07:42:33

截至 2026年6月,本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准,聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能,但容易被针对性优化("刷榜")。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示:LMArena Coding Arena 通过匿名盲测评测通用编程能力(调试、算法实现、代码生成等);DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成(网站、UI 组件、游戏等),两者方法论相同但考察场景各异,结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务(调试、算法、代码生成)进行匿名 A/B 盲测投票,Elo 算法动态排名。

数据更新于 2026-06-16

#模型Elo
1
1563
2
1553
4
Anthropic
Opus 4.7
1549
5
1548
7
1540
9
GLM 5.1
1529
10
1527
来源:LMArena

DesignArena Code Category

完整排名

基于 Arcada Labs 平台,对视觉前端代码任务(网站、UI 组件、游戏、数据可视化等)进行匿名投票,Bradley-Terry 模型动态排名。

数据更新于 2026-06-19

#模型Elo
1
GLM-5.2
1360
2
1350
3
1341
4
1337
6
GLM 5.1
1332
7
Moonshot AI
Kimi K2.6
1328
8
Anthropic
Opus 4.7
1325
9
1325
10
GLM-5-Turbo
1322
来源:DesignArena

榜单亮点

按 SWE-bench Verified 排序

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型

Claude Fable 5Anthropic
深度思考模式工具
SWE-bench Verified95.00
LiveCodeBench
SWE-Bench Pro - Public80.30
SWE-bench Multilingual
闭源
Claude Fable 5Anthropic
开启思考工具
SWE-bench Verified95.00
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
SWE-bench Verified93.90
LiveCodeBench
SWE-Bench Pro - Public77.80
SWE-bench Multilingual87.30
闭源
4
Claude Opus 4.8Anthropic
扩展思考工具
SWE-bench Verified88.60
LiveCodeBench
SWE-Bench Pro - Public69.20
SWE-bench Multilingual
闭源
5
Opus 4.7Anthropic
扩展思考工具
SWE-bench Verified87.60
LiveCodeBench
SWE-Bench Pro - Public64.30
SWE-bench Multilingual
闭源
6
Claude Sonnet 4.5Anthropic
并行 · 开启思考工具
SWE-bench Verified82.00
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
7
Claude Sonnet 5Anthropic
并行 · 开启思考
SWE-bench Verified82.00
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
8
Opus 4.5Anthropic
扩展思考工具
SWE-bench Verified80.90
LiveCodeBench87.00
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
9
Claude Opus 4.6Anthropic
扩展思考工具
SWE-bench Verified80.84
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual72.00
闭源
SWE-bench Verified80.60
LiveCodeBench91.70
SWE-Bench Pro - Public54.20
SWE-bench Multilingual
闭源
11
DeepSeek-V4-ProDeepSeek-AI
思考水平 · 极高工具
SWE-bench Verified80.60
LiveCodeBench
SWE-Bench Pro - Public55.40
SWE-bench Multilingual76.20
免费商用
SWE-bench Verified80.40
LiveCodeBench
SWE-Bench Pro - Public60.60
SWE-bench Multilingual78.30
闭源
13
Claude Sonnet 4Anthropic
并行 · 开启思考工具
SWE-bench Verified80.20
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
14
MiniMax M2.5MiniMaxAI
开启思考工具
SWE-bench Verified80.20
LiveCodeBench
SWE-Bench Pro - Public55.40
SWE-bench Multilingual
免费商用
15
Kimi K2.6Moonshot AI
开启思考工具
SWE-bench Verified80.20
LiveCodeBench
SWE-Bench Pro - Public58.60
SWE-bench Multilingual76.70
免费商用
16
GPT-5.2OpenAI
思考水平 · 极高工具
SWE-bench Verified80.00
LiveCodeBench
SWE-Bench Pro - Public55.60
SWE-bench Multilingual
闭源
SWE-bench Verified79.60
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
18
DeepSeek-V4-ProDeepSeek-AI
开启思考工具
SWE-bench Verified79.40
LiveCodeBench
SWE-Bench Pro - Public54.40
SWE-bench Multilingual74.10
免费商用
19
DeepSeek-V4-FlashDeepSeek-AI
思考水平 · 极高工具
SWE-bench Verified79.00
LiveCodeBench
SWE-Bench Pro - Public52.60
SWE-bench Multilingual73.30
免费商用
SWE-bench Verified78.80
LiveCodeBench
SWE-Bench Pro - Public56.60
SWE-bench Multilingual
闭源
SWE-bench Verified78.80
LiveCodeBench
SWE-Bench Pro - Public56.60
SWE-bench Multilingual73.80
闭源
22
SWE-bench Verified78.60
LiveCodeBench
SWE-Bench Pro - Public52.30
SWE-bench Multilingual70.20
免费商用
23
GLM-5智谱AI
开启思考
SWE-bench Verified77.80
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified77.40
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
25
Claude Sonnet 4.5Anthropic
开启思考工具
SWE-bench Verified77.20
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
26
Qwen3.6-27B阿里巴巴
开启思考工具
SWE-bench Verified77.20
LiveCodeBench
SWE-Bench Pro - Public53.50
SWE-bench Multilingual71.30
免费商用
27
GPT-5.1-Codex-MaxOpenAI
思考水平 · 高工具
SWE-bench Verified76.80
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
28
Kimi K2.5Moonshot AI
开启思考工具
SWE-bench Verified76.80
LiveCodeBench
SWE-Bench Pro - Public50.70
SWE-bench Multilingual
免费商用
29
SWE-bench Verified76.40
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
30
GPT-5.1OpenAI
思考水平 · 高
SWE-bench Verified76.30
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
31
GPT-5.1OpenAI
开启思考工具
SWE-bench Verified76.30
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
SWE-bench Verified76.20
LiveCodeBench92.00
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
SWE-bench Verified75.30
LiveCodeBench85.90
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
34
o3-proOpenAI
思考水平 · 高
SWE-bench Verified75.00
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
35
M2.1MiniMaxAI
开启思考
SWE-bench Verified74.80
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
36
Opus 4.1Anthropic
扩展思考工具
SWE-bench Verified74.50
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
37
GPT-5 CodexOpenAI
思考水平 · 高
SWE-bench Verified74.50
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
SWE-bench Verified74.40
LiveCodeBench86.40
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
39
GLM-4.7智谱AI
开启思考工具
SWE-bench Verified73.80
LiveCodeBench
SWE-Bench Pro - Public40.60
SWE-bench Multilingual
免费商用
40
SWE-bench Verified73.70
LiveCodeBench
SWE-Bench Pro - Public49.10
SWE-bench Multilingual69.70
免费商用
41
DeepSeek-V4-ProDeepSeek-AI
常规模式工具
SWE-bench Verified73.60
LiveCodeBench
SWE-Bench Pro - Public52.10
SWE-bench Multilingual69.80
免费商用
42
Grok 4 HeavyxAI
并行 · 开启思考工具
SWE-bench Verified73.50
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
SWE-bench Verified73.40
LiveCodeBench80.40
SWE-Bench Pro - Public49.50
SWE-bench Multilingual67.20
免费商用
44
Haiku 4.5Anthropic
开启思考工具
SWE-bench Verified73.30
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
45
DeepSeek V3.2DeepSeek-AI
开启思考工具
SWE-bench Verified73.10
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
46
GPT-5OpenAI
思考水平 · 高
SWE-bench Verified72.80
LiveCodeBench
SWE-Bench Pro - Public36.30
SWE-bench Multilingual
闭源
47
Claude Sonnet 4Anthropic
开启思考工具
SWE-bench Verified72.70
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
SWE-bench Verified72.50
LiveCodeBench56.60
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
SWE-bench Verified72.40
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified72.00
LiveCodeBench
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
排序:
已显示 50 / 211 个模型查看 SWE-bench Verified 基准测试完整页面