返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-07-01 07:32:52

截至 2026年7月,本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准,聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能,但容易被针对性优化("刷榜")。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示:LMArena Coding Arena 通过匿名盲测评测通用编程能力(调试、算法实现、代码生成等);DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成(网站、UI 组件、游戏等),两者方法论相同但考察场景各异,结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务(调试、算法、代码生成)进行匿名 A/B 盲测投票,Elo 算法动态排名。

数据更新于 2026-06-25

#模型Elo
1
1564
2
1554
4
Anthropic
Opus 4.7
1550
5
1547
6
1538
9
1527
10
1526
来源:LMArena

DesignArena Code Category

完整排名

基于 Arcada Labs 平台,对视觉前端代码任务(网站、UI 组件、游戏、数据可视化等)进行匿名投票,Bradley-Terry 模型动态排名。

数据更新于 2026-06-28

#模型Elo
1
GLM-5.2
1363
2
1350
3
1343
5
1337
6
GLM 5.1
1334
7
Moonshot AI
Kimi K2.6
1328
8
1326
9
Anthropic
Opus 4.7
1325
10
GLM-5-Turbo
1322
来源:DesignArena

榜单亮点

按 LiveCodeBench 排序

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型

DeepSeek-V4-ProDeepSeek-AI
思考水平 · 高
SWE-bench Verified
LiveCodeBench93.50
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench91.60
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
DeepSeek-V4-FlashDeepSeek-AI
思考水平 · 高
SWE-bench Verified
LiveCodeBench91.60
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench89.80
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench89.60
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench88.40
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench87.10
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
SWE-bench Verified
LiveCodeBench87.10
SWE-Bench Pro - Public56.60
SWE-bench Multilingual73.80
闭源
SWE-bench Verified74.40
LiveCodeBench86.40
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified75.30
LiveCodeBench85.90
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
11
SWE-bench Verified
LiveCodeBench85.00
SWE-Bench Pro - Public
SWE-bench Multilingual73.00
免费商用
12
GLM-4.7智谱AI
开启思考
SWE-bench Verified
LiveCodeBench84.90
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
13
GLM-4.6智谱AI
开启思考工具
SWE-bench Verified68.00
LiveCodeBench84.50
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench83.90
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench83.60
SWE-Bench Pro - Public50.90
SWE-bench Multilingual69.30
免费商用
SWE-bench Verified70.20
LiveCodeBench83.30
SWE-Bench Pro - Public40.90
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench83.10
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
18
SWE-bench Verified
LiveCodeBench83.00
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
19
GLM-4.6智谱AI
开启思考
SWE-bench Verified
LiveCodeBench82.80
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
20
Qwen3.5-27B阿里巴巴
开启思考工具
SWE-bench Verified
LiveCodeBench80.70
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified73.40
LiveCodeBench80.40
SWE-Bench Pro - Public49.50
SWE-bench Multilingual67.20
免费商用
SWE-bench Verified
LiveCodeBench80.00
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified68.40
LiveCodeBench74.90
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench74.80
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench74.10
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench74.10
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench74.10
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench73.80
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
SWE-bench Verified57.60
LiveCodeBench73.30
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
30
GLM-4.5智谱AI
开启思考
SWE-bench Verified64.20
LiveCodeBench72.90
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
31
SWE-bench Verified57.60
LiveCodeBench70.70
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified34.40
LiveCodeBench70.70
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench70.70
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench67.10
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench67.10
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified49.20
LiveCodeBench65.90
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench65.90
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
38
SWE-bench Verified
LiveCodeBench65.70
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench65.60
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified56.00
LiveCodeBench65.00
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench64.90
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
SWE-bench Verified
LiveCodeBench63.90
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified55.60
LiveCodeBench62.30
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench61.80
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench59.60
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified69.60
LiveCodeBench57.50
SWE-Bench Pro - Public
SWE-bench Multilingual
闭源
47
SWE-bench Verified
LiveCodeBench57.50
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench57.00
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench56.80
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
SWE-bench Verified
LiveCodeBench56.60
SWE-Bench Pro - Public
SWE-bench Multilingual
免费商用
排序:
已显示 50 / 103 个模型查看 LiveCodeBench 基准测试完整页面