DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-05-21 22:14:17

截至 2026年5月,本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准,聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能,但容易被针对性优化("刷榜")。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示:LMArena Coding Arena 通过匿名盲测评测通用编程能力(调试、算法实现、代码生成等);DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成(网站、UI 组件、游戏等),两者方法论相同但考察场景各异,结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务(调试、算法、代码生成)进行匿名 A/B 盲测投票,Elo 算法动态排名。

数据更新于 2026-05-17

#模型Elo
1
Anthropic
Opus 4.7 (thinking)Anthropic
1559
2
Anthropic
Opus 4.7Anthropic
1552
3
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1551
4
Anthropic
Claude Opus 4.6Anthropic
1548
5
Anthropic
Claude Opus 4 (thinking-32k)Anthropic
1530
6
F
Muse SparkFacebook AI研究实验室
1529
7
智
GLM 5.1智谱AI
1526
8
OpenAI
GPT-5.4 (high)OpenAI
1525
9
阿
Qwen3.7-Max-Preview阿里巴巴
1525
10
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1525
来源:LMArena

DesignArena Code Category

完整排名

基于 Arcada Labs 平台,对视觉前端代码任务(网站、UI 组件、游戏、数据可视化等)进行匿名投票,Bradley-Terry 模型动态排名。

数据更新于 2026-05-24

#模型Elo
1
Anthropic
Claude Opus 4.6Anthropic
1348
2
Anthropic
Opus 4.7 (thinking)Anthropic
1346
3
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1342
4
智
GLM 5.1智谱AI
1338
5
Moonshot AI
Kimi K2.6Moonshot AI
1338
6
智
GLM-5-Turbo智谱AI
1333
7
Anthropic
Opus 4.7Anthropic
1332
8
Anthropic
Claude Sonnet 4.6Anthropic
1330
9
X
MiMo V2.5 ProXiaomi
1329
10
DeepSeek-AI
DeepSeek-V4-ProDeepSeek-AI
1310
来源:DesignArena
基准评测
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro - PublicSWE-bench Multilingual
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

榜单亮点

按 SWE-Bench Pro - Public 排序
当前 SOTA
Anthropic

Claude Mythos Preview

Anthropic

77.80SWE-Bench Pro - Public
查看详情
最佳开源
Moonshot AI

Kimi K2.6

Moonshot AI

58.60SWE-Bench Pro - Public−19.20
查看详情
最佳国产
阿里巴巴

Qwen3.7-Max-Preview

阿里巴巴

60.60SWE-Bench Pro - Public−17.20
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。

排名模型
开源情况
Anthropic
Claude Mythos Preview
扩展思考工具
Anthropic
93.90—77.8087.30闭源详情详情
Anthropic
Opus 4.7
扩展思考工具
Anthropic
87.60—64.30—闭源详情详情
阿里巴巴
Qwen3.7-Max-Preview
开启思考工具
阿里巴巴
80.40—60.6078.30闭源详情详情
4
Moonshot AI
Kimi K2.6
开启思考工具
Moonshot AI
80.20—58.6076.70免费商用详情详情
5
OpenAI
GPT-5.5
开启思考工具
OpenAI
——58.60—闭源详情详情
6
智谱AI
GLM 5.1
开启思考工具
智谱AI
——58.40—免费商用详情详情
7
OpenAI
GPT-5.4
思考水平 · 极高
OpenAI
——57.70—闭源详情详情
8
阿里巴巴
Qwen3.6-Max-Preview
深度思考模式工具
阿里巴巴
——57.30—闭源详情详情
9
OpenAI
GPT-5.3 Codex
OpenAI
——56.80—闭源详情详情
10
阿里巴巴
Qwen 3.6 Plus Preview
开启思考工具
阿里巴巴
78.80—56.60—闭源详情详情
11
阿里巴巴
Qwen3.6-Max-Preview
开启思考工具
阿里巴巴
78.80—56.6073.80闭源详情详情
12
阿里巴巴
Qwen 3.6 Plus Preview
开启思考
阿里巴巴
—87.1056.6073.80闭源详情详情
13
MiniMaxAI
MiniMax-M2.7
开启思考工具
MiniMaxAI
——56.20—不可商用详情详情
14
OpenAI
GPT-5.2
思考水平 · 极高工具
OpenAI
80.00—55.60—闭源详情详情
15
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 极高工具
DeepSeek-AI
80.60—55.4076.20免费商用详情详情
16
MiniMaxAI
MiniMax M2.5
开启思考工具
MiniMaxAI
80.20—55.40—免费商用详情详情
17
Google Deep Mind
Gemini 3.5 Flash
开启思考工具
Google Deep Mind
——55.10—闭源详情详情
18
DeepSeek-AI
DeepSeek-V4-Pro
开启思考工具
DeepSeek-AI
79.40—54.4074.10免费商用详情详情
19
OpenAI
GPT-5.4 mini
思考水平 · 极高工具
OpenAI
——54.40—闭源详情详情
20
Google Deep Mind
Gemini 3.1 Pro Preview
开启思考工具
Google Deep Mind
80.6091.7054.20—闭源详情详情
21
阿里巴巴
Qwen3.6-27B
开启思考工具
阿里巴巴
77.20—53.5071.30免费商用详情详情
22
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 极高工具
DeepSeek-AI
79.00—52.6073.30免费商用详情详情
23
OpenAI
GPT-5.4 nano
思考水平 · 极高工具
OpenAI
——52.40—闭源详情详情
24
DeepSeek-AI
DeepSeek-V4-Flash
开启思考工具
DeepSeek-AI
78.60—52.3070.20免费商用详情详情
25
DeepSeek-AI
DeepSeek-V4-Pro
常规模式工具
DeepSeek-AI
73.60—52.1069.80免费商用详情详情
26
阿里巴巴
Qwen3.5-397B-A17B
开启思考
阿里巴巴
—83.6050.9069.30免费商用详情详情
27
OpenAI
GPT-5.1
开启思考
OpenAI
——50.80—闭源详情详情
28
Moonshot AI
Kimi K2.5
开启思考工具
Moonshot AI
76.80—50.70—免费商用详情详情
29
Google Deep Mind
Gemini 3.0 Flash
开启思考工具
Google Deep Mind
——49.60—闭源详情详情
30
阿里巴巴
Qwen3.6-35B-A3B
开启思考
阿里巴巴
73.4080.4049.5067.20免费商用详情详情
31
DeepSeek-AI
DeepSeek-V4-Flash
常规模式工具
DeepSeek-AI
73.70—49.1069.70免费商用详情详情
32
阿里巴巴
Qwen3-Coder-Next
常规模式工具
阿里巴巴
70.60—44.30—免费商用详情详情
33
Anthropic
Claude Sonnet 4.5
开启思考
Anthropic
—71.0043.60—闭源详情详情
34
Anthropic
Claude Sonnet 4
开启思考
Anthropic
—66.0042.70—闭源详情详情
35
DeepSeek-AI
DeepSeek V3.2
开启思考
DeepSeek-AI
70.2083.3040.90—免费商用详情详情
36
智谱AI
GLM-4.7
开启思考工具
智谱AI
73.80—40.60—免费商用详情详情
37
Anthropic
Haiku 4.5
扩展思考工具
Anthropic
——39.45—闭源详情详情
38
OpenAI
GPT-5
思考水平 · 高
OpenAI
72.80—36.30—闭源详情详情
39
MiniMaxAI
M2.1
开启思考工具
MiniMaxAI
——32.60—免费商用详情详情
40
Moonshot AI
Kimi K2 0905
Moonshot AI
69.20—27.67—免费商用详情详情
41
Anthropic
Claude Sonnet 5
并行 · 开启思考
Anthropic
82.00———闭源详情详情
42
Anthropic
Claude Sonnet 4.5
并行 · 开启思考工具
Anthropic
82.00———闭源详情详情
43
Anthropic
Opus 4.5
扩展思考工具
Anthropic
80.9087.00——闭源详情详情
44
Anthropic
Claude Opus 4.6
扩展思考工具
Anthropic
80.84——72.00闭源详情详情
45
Anthropic
Claude Sonnet 4
并行 · 开启思考工具
Anthropic
80.20———闭源详情详情
46
Anthropic
Claude Sonnet 4.6
开启思考
Anthropic
79.60———闭源详情详情
47
智谱AI
GLM-5
开启思考
智谱AI
77.80———免费商用详情详情
48
Facebook AI研究实验室
Muse Spark
开启思考工具
Facebook AI研究实验室
77.40———闭源详情详情
49
Anthropic
Claude Sonnet 4.5
开启思考工具
Anthropic
77.20———闭源详情详情
50
OpenAI
GPT-5.1-Codex-Max
思考水平 · 高工具
OpenAI
76.80———闭源详情详情
Claude Mythos Preview
Anthropic
扩展思考工具
SWE-bench Verified93.90
LiveCodeBench—
SWE-Bench Pro - Public77.80
SWE-bench Multilingual87.30
闭源
Opus 4.7
Anthropic
扩展思考工具
SWE-bench Verified87.60
LiveCodeBench—
SWE-Bench Pro - Public64.30
SWE-bench Multilingual—
闭源
Qwen3.7-Max-Preview
阿里巴巴
开启思考工具
SWE-bench Verified80.40
LiveCodeBench—
SWE-Bench Pro - Public60.60
SWE-bench Multilingual78.30
闭源
4
Kimi K2.6
Moonshot AI
开启思考工具
SWE-bench Verified80.20
LiveCodeBench—
SWE-Bench Pro - Public58.60
SWE-bench Multilingual76.70
免费商用
5
GPT-5.5
OpenAI
开启思考工具
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public58.60
SWE-bench Multilingual—
闭源
6
GLM 5.1
智谱AI
开启思考工具
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public58.40
SWE-bench Multilingual—
免费商用
7
GPT-5.4
OpenAI
思考水平 · 极高
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public57.70
SWE-bench Multilingual—
闭源
8
Qwen3.6-Max-Preview
阿里巴巴
深度思考模式工具
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public57.30
SWE-bench Multilingual—
闭源
9
GPT-5.3 Codex
OpenAI
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public56.80
SWE-bench Multilingual—
闭源
10
Qwen 3.6 Plus Preview
阿里巴巴
开启思考工具
SWE-bench Verified78.80
LiveCodeBench—
SWE-Bench Pro - Public56.60
SWE-bench Multilingual—
闭源
11
Qwen3.6-Max-Preview
阿里巴巴
开启思考工具
SWE-bench Verified78.80
LiveCodeBench—
SWE-Bench Pro - Public56.60
SWE-bench Multilingual73.80
闭源
12
Qwen 3.6 Plus Preview
阿里巴巴
开启思考
SWE-bench Verified—
LiveCodeBench87.10
SWE-Bench Pro - Public56.60
SWE-bench Multilingual73.80
闭源
13
MiniMax-M2.7
MiniMaxAI
开启思考工具
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public56.20
SWE-bench Multilingual—
不可商用
14
GPT-5.2
OpenAI
思考水平 · 极高工具
SWE-bench Verified80.00
LiveCodeBench—
SWE-Bench Pro - Public55.60
SWE-bench Multilingual—
闭源
15
DeepSeek-V4-Pro
DeepSeek-AI
思考水平 · 极高工具
SWE-bench Verified80.60
LiveCodeBench—
SWE-Bench Pro - Public55.40
SWE-bench Multilingual76.20
免费商用
16
MiniMax M2.5
MiniMaxAI
开启思考工具
SWE-bench Verified80.20
LiveCodeBench—
SWE-Bench Pro - Public55.40
SWE-bench Multilingual—
免费商用
17
Gemini 3.5 Flash
Google Deep Mind
开启思考工具
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public55.10
SWE-bench Multilingual—
闭源
18
DeepSeek-V4-Pro
DeepSeek-AI
开启思考工具
SWE-bench Verified79.40
LiveCodeBench—
SWE-Bench Pro - Public54.40
SWE-bench Multilingual74.10
免费商用
19
GPT-5.4 mini
OpenAI
思考水平 · 极高工具
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public54.40
SWE-bench Multilingual—
闭源
20
Gemini 3.1 Pro Preview
Google Deep Mind
开启思考工具
SWE-bench Verified80.60
LiveCodeBench91.70
SWE-Bench Pro - Public54.20
SWE-bench Multilingual—
闭源
21
Qwen3.6-27B
阿里巴巴
开启思考工具
SWE-bench Verified77.20
LiveCodeBench—
SWE-Bench Pro - Public53.50
SWE-bench Multilingual71.30
免费商用
22
DeepSeek-V4-Flash
DeepSeek-AI
思考水平 · 极高工具
SWE-bench Verified79.00
LiveCodeBench—
SWE-Bench Pro - Public52.60
SWE-bench Multilingual73.30
免费商用
23
GPT-5.4 nano
OpenAI
思考水平 · 极高工具
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public52.40
SWE-bench Multilingual—
闭源
24
DeepSeek-V4-Flash
DeepSeek-AI
开启思考工具
SWE-bench Verified78.60
LiveCodeBench—
SWE-Bench Pro - Public52.30
SWE-bench Multilingual70.20
免费商用
25
DeepSeek-V4-Pro
DeepSeek-AI
常规模式工具
SWE-bench Verified73.60
LiveCodeBench—
SWE-Bench Pro - Public52.10
SWE-bench Multilingual69.80
免费商用
26
Qwen3.5-397B-A17B
阿里巴巴
开启思考
SWE-bench Verified—
LiveCodeBench83.60
SWE-Bench Pro - Public50.90
SWE-bench Multilingual69.30
免费商用
27
GPT-5.1
OpenAI
开启思考
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public50.80
SWE-bench Multilingual—
闭源
28
Kimi K2.5
Moonshot AI
开启思考工具
SWE-bench Verified76.80
LiveCodeBench—
SWE-Bench Pro - Public50.70
SWE-bench Multilingual—
免费商用
29
Gemini 3.0 Flash
Google Deep Mind
开启思考工具
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public49.60
SWE-bench Multilingual—
闭源
30
Qwen3.6-35B-A3B
阿里巴巴
开启思考
SWE-bench Verified73.40
LiveCodeBench80.40
SWE-Bench Pro - Public49.50
SWE-bench Multilingual67.20
免费商用
31
DeepSeek-V4-Flash
DeepSeek-AI
常规模式工具
SWE-bench Verified73.70
LiveCodeBench—
SWE-Bench Pro - Public49.10
SWE-bench Multilingual69.70
免费商用
32
Qwen3-Coder-Next
阿里巴巴
常规模式工具
SWE-bench Verified70.60
LiveCodeBench—
SWE-Bench Pro - Public44.30
SWE-bench Multilingual—
免费商用
33
Claude Sonnet 4.5
Anthropic
开启思考
SWE-bench Verified—
LiveCodeBench71.00
SWE-Bench Pro - Public43.60
SWE-bench Multilingual—
闭源
34
Claude Sonnet 4
Anthropic
开启思考
SWE-bench Verified—
LiveCodeBench66.00
SWE-Bench Pro - Public42.70
SWE-bench Multilingual—
闭源
35
DeepSeek V3.2
DeepSeek-AI
开启思考
SWE-bench Verified70.20
LiveCodeBench83.30
SWE-Bench Pro - Public40.90
SWE-bench Multilingual—
免费商用
36
GLM-4.7
智谱AI
开启思考工具
SWE-bench Verified73.80
LiveCodeBench—
SWE-Bench Pro - Public40.60
SWE-bench Multilingual—
免费商用
37
Haiku 4.5
Anthropic
扩展思考工具
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public39.45
SWE-bench Multilingual—
闭源
38
GPT-5
OpenAI
思考水平 · 高
SWE-bench Verified72.80
LiveCodeBench—
SWE-Bench Pro - Public36.30
SWE-bench Multilingual—
闭源
39
M2.1
MiniMaxAI
开启思考工具
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public32.60
SWE-bench Multilingual—
免费商用
40
Kimi K2 0905
Moonshot AI
SWE-bench Verified69.20
LiveCodeBench—
SWE-Bench Pro - Public27.67
SWE-bench Multilingual—
免费商用
41
Claude Sonnet 5
Anthropic
并行 · 开启思考
SWE-bench Verified82.00
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
42
Claude Sonnet 4.5
Anthropic
并行 · 开启思考工具
SWE-bench Verified82.00
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
43
Opus 4.5
Anthropic
扩展思考工具
SWE-bench Verified80.90
LiveCodeBench87.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
44
Claude Opus 4.6
Anthropic
扩展思考工具
SWE-bench Verified80.84
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual72.00
闭源
45
Claude Sonnet 4
Anthropic
并行 · 开启思考工具
SWE-bench Verified80.20
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
46
Claude Sonnet 4.6
Anthropic
开启思考
SWE-bench Verified79.60
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
47
GLM-5
智谱AI
开启思考
SWE-bench Verified77.80
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
48
Muse Spark
Facebook AI研究实验室
开启思考工具
SWE-bench Verified77.40
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
49
Claude Sonnet 4.5
Anthropic
开启思考工具
SWE-bench Verified77.20
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
50
GPT-5.1-Codex-Max
OpenAI
思考水平 · 高工具
SWE-bench Verified76.80
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
排序:
已显示 50 / 206 个模型查看 SWE-Bench Pro - Public 基准测试完整页面