DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-05-02 07:10:24

截至 2026年5月,本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准,聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能,但容易被针对性优化("刷榜")。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示:LMArena Coding Arena 通过匿名盲测评测通用编程能力(调试、算法实现、代码生成等);DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成(网站、UI 组件、游戏等),两者方法论相同但考察场景各异,结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务(调试、算法、代码生成)进行匿名 A/B 盲测投票,Elo 算法动态排名。

数据更新于 2026-05-07

#模型Elo
1
Anthropic
Opus 4.7 (thinking)Anthropic
1569
2
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1553
3
Anthropic
Opus 4.7Anthropic
1550
4
Anthropic
Claude Opus 4.6Anthropic
1550
5
Anthropic
Claude Opus 4 (thinking-32k)Anthropic
1531
6
F
Muse SparkFacebook AI研究实验室
1530
7
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1529
8
OpenAI
gpt-5.4-highOpenAI
1528
9
智
GLM 5.1智谱AI
1525
10
OpenAI
gpt-5.5-highOpenAI
1524
来源:LMArena

DesignArena Code Category

完整排名

基于 Arcada Labs 平台,对视觉前端代码任务(网站、UI 组件、游戏、数据可视化等)进行匿名投票,Bradley-Terry 模型动态排名。

数据更新于 2026-05-10

#模型Elo
1
Anthropic
Claude Opus 4.7 (Thinking)Anthropic
1350
2
Anthropic
Claude Opus 4.6Anthropic
1346
3
Anthropic
Claude Opus 4.6 (Thinking)Anthropic
1344
4
Moonshot AI
Kimi K2.6Moonshot AI
1343
5
Z
GLM 5.1Zhipu AI
1341
6
Anthropic
Opus 4.7Anthropic
1338
7
Z
GLM 5 TurboZhipu AI
1336
8
Anthropic
Claude Sonnet 4.6Anthropic
1331
9
OpenAI
GPT-5.5OpenAI
1314
10
DeepSeek-AI
DeepSeek-V4-ProDeepSeek-AI
1313
来源:DesignArena
基准评测
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro - PublicSWE-bench Multilingual
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

大模型性能评测结果

数据来源:DataLearnerAI
排名模型开源情况
Moonshot AI
Kimi K2.6
开启思考工具
Moonshot AI
80.20—58.6076.70免费商用
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 极高工具
DeepSeek-AI
80.60—55.4076.20免费商用
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 高工具
DeepSeek-AI
79.40—54.4074.10免费商用
4
阿里巴巴
Qwen 3.6 Plus Preview
开启思考
阿里巴巴
—87.1056.6073.80闭源
5
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 极高工具
DeepSeek-AI
79.00—52.6073.30免费商用
6
Moonshot AI
Kimi K2.5
开启思考
Moonshot AI
—85.00—73.00免费商用
7
阿里巴巴
Qwen3.6-27B
开启思考工具
阿里巴巴
77.20—53.5071.30免费商用
8
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 高工具
DeepSeek-AI
78.60—52.3070.20免费商用
9
DeepSeek-AI
DeepSeek-V4-Pro
常规模式工具
DeepSeek-AI
73.60—52.1069.80免费商用
10
DeepSeek-AI
DeepSeek-V4-Flash
常规模式工具
DeepSeek-AI
73.70—49.1069.70免费商用
11
阿里巴巴
Qwen3.5-397B-A17B
开启思考
阿里巴巴
—83.6050.9069.30免费商用
12
阿里巴巴
Qwen3.6-35B-A3B
开启思考
阿里巴巴
73.4080.4049.5067.20免费商用
13
MiniMaxAI
MiniMax M2.5
开启思考工具
MiniMaxAI
80.20—55.40—免费商用
14
阿里巴巴
Qwen 3.6 Plus Preview
开启思考工具
阿里巴巴
78.80—56.60—闭源
15
智谱AI
GLM-5
开启思考
智谱AI
77.80———免费商用
16
Moonshot AI
Kimi K2.5
开启思考工具
Moonshot AI
76.80—50.70—免费商用
17
阿里巴巴
Qwen3.5-397B-A17B
开启思考工具
阿里巴巴
76.40———免费商用
18
阿里巴巴
Qwen3-Max-Thinking
开启思考
阿里巴巴
75.3085.90——闭源
19
MiniMaxAI
M2.1
开启思考
MiniMaxAI
74.80———免费商用
20
StepFunAI
Step 3.5 Flash
开启思考
StepFunAI
74.4086.40——免费商用
21
智谱AI
GLM-4.7
开启思考工具
智谱AI
73.80—40.60—免费商用
22
DeepSeek-AI
DeepSeek V3.2
开启思考工具
DeepSeek-AI
73.10———免费商用
23
阿里巴巴
Qwen3.5-27B
开启思考
阿里巴巴
72.40———免费商用
24
Moonshot AI
Kimi K2 Thinking
开启思考工具
Moonshot AI
71.30———免费商用
25
阿里巴巴
Qwen3-Coder-Next
常规模式工具
阿里巴巴
70.60—44.30—免费商用
26
DeepSeek-AI
DeepSeek V3.2
开启思考
DeepSeek-AI
70.2083.3040.90—免费商用
27
阿里巴巴
Qwen3 Max (Preview)
阿里巴巴
69.6057.50——闭源
28
MiniMaxAI
MiniMax M2
开启思考工具
MiniMaxAI
69.40———免费商用
29
Moonshot AI
Kimi K2 0905
Moonshot AI
69.20—27.67—免费商用
30
Moonshot AI
Kimi K2 0905
开启思考工具
Moonshot AI
69.20———免费商用
31
DeepSeek-AI
DeepSeek-V3.1 Terminus
DeepSeek-AI
68.4074.90——免费商用
32
智谱AI
GLM-4.6
智谱AI
68.0056.00——免费商用
33
智谱AI
GLM-4.6
开启思考工具
智谱AI
68.0084.50——免费商用
34
DeepSeek-AI
DeepSeek V3.2-Exp
开启思考工具
DeepSeek-AI
67.80———免费商用
35
阿里巴巴
Qwen3-Coder-480B-A35B
阿里巴巴
67.00———免费商用
36
DeepSeek-AI
DeepSeek-V3.1
DeepSeek-AI
66.0056.40——免费商用
37
智谱AI
GLM-4.5
开启思考
智谱AI
64.2072.90——免费商用
38
智谱AI
GLM-4.7-Flash
开启思考
智谱AI
59.20———免费商用
39
DeepSeek-AI
DeepSeek-R1-0528
开启思考
DeepSeek-AI
57.6073.30——免费商用
40
智谱AI
GLM-4.5-Air
开启思考
智谱AI
57.6070.70——免费商用
41
MiniMaxAI
MiniMax-M1-80k
MiniMaxAI
56.0065.00——免费商用
42
MiniMaxAI
MiniMax-M1-40k
MiniMaxAI
55.6062.30——免费商用
43
Moonshot AI
Kimi K2
Moonshot AI
51.8053.70——免费商用
44
阿里巴巴
Qwen3-Coder-Flash
阿里巴巴
51.60———免费商用
45
DeepSeek-AI
DeepSeek-R1
DeepSeek-AI
49.2065.90——免费商用
46
DeepSeek-AI
DeepSeek-V3-0324
DeepSeek-AI
38.8049.20——免费商用
47
阿里巴巴
Qwen3-235B-A22B
阿里巴巴
34.4070.70——免费商用
48
阿里巴巴
Qwen3-30B-A3B-2507
开启思考
阿里巴巴
22.00———免费商用
49
DeepSeek-AI
DeepSeek-V3
DeepSeek-AI
—34.60——免费商用
50
Tencent ARC
Hunyuan-7B
Tencent ARC
—57.00——免费商用
Kimi K2.6
Moonshot AI
开启思考工具
SWE-bench Verified80.20
LiveCodeBench—
SWE-Bench Pro - Public58.60
SWE-bench Multilingual76.70
免费商用
DeepSeek-V4-Pro
DeepSeek-AI
思考水平 · 极高工具
SWE-bench Verified80.60
LiveCodeBench—
SWE-Bench Pro - Public55.40
SWE-bench Multilingual76.20
免费商用
DeepSeek-V4-Pro
DeepSeek-AI
思考水平 · 高工具
SWE-bench Verified79.40
LiveCodeBench—
SWE-Bench Pro - Public54.40
SWE-bench Multilingual74.10
免费商用
4
Qwen 3.6 Plus Preview
阿里巴巴
开启思考
SWE-bench Verified—
LiveCodeBench87.10
SWE-Bench Pro - Public56.60
SWE-bench Multilingual73.80
闭源
5
DeepSeek-V4-Flash
DeepSeek-AI
思考水平 · 极高工具
SWE-bench Verified79.00
LiveCodeBench—
SWE-Bench Pro - Public52.60
SWE-bench Multilingual73.30
免费商用
6
Kimi K2.5
Moonshot AI
开启思考
SWE-bench Verified—
LiveCodeBench85.00
SWE-Bench Pro - Public—
SWE-bench Multilingual73.00
免费商用
7
Qwen3.6-27B
阿里巴巴
开启思考工具
SWE-bench Verified77.20
LiveCodeBench—
SWE-Bench Pro - Public53.50
SWE-bench Multilingual71.30
免费商用
8
DeepSeek-V4-Flash
DeepSeek-AI
思考水平 · 高工具
SWE-bench Verified78.60
LiveCodeBench—
SWE-Bench Pro - Public52.30
SWE-bench Multilingual70.20
免费商用
9
DeepSeek-V4-Pro
DeepSeek-AI
常规模式工具
SWE-bench Verified73.60
LiveCodeBench—
SWE-Bench Pro - Public52.10
SWE-bench Multilingual69.80
免费商用
10
DeepSeek-V4-Flash
DeepSeek-AI
常规模式工具
SWE-bench Verified73.70
LiveCodeBench—
SWE-Bench Pro - Public49.10
SWE-bench Multilingual69.70
免费商用
11
Qwen3.5-397B-A17B
阿里巴巴
开启思考
SWE-bench Verified—
LiveCodeBench83.60
SWE-Bench Pro - Public50.90
SWE-bench Multilingual69.30
免费商用
12
Qwen3.6-35B-A3B
阿里巴巴
开启思考
SWE-bench Verified73.40
LiveCodeBench80.40
SWE-Bench Pro - Public49.50
SWE-bench Multilingual67.20
免费商用
13
MiniMax M2.5
MiniMaxAI
开启思考工具
SWE-bench Verified80.20
LiveCodeBench—
SWE-Bench Pro - Public55.40
SWE-bench Multilingual—
免费商用
14
Qwen 3.6 Plus Preview
阿里巴巴
开启思考工具
SWE-bench Verified78.80
LiveCodeBench—
SWE-Bench Pro - Public56.60
SWE-bench Multilingual—
闭源
15
GLM-5
智谱AI
开启思考
SWE-bench Verified77.80
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
16
Kimi K2.5
Moonshot AI
开启思考工具
SWE-bench Verified76.80
LiveCodeBench—
SWE-Bench Pro - Public50.70
SWE-bench Multilingual—
免费商用
17
Qwen3.5-397B-A17B
阿里巴巴
开启思考工具
SWE-bench Verified76.40
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
18
Qwen3-Max-Thinking
阿里巴巴
开启思考
SWE-bench Verified75.30
LiveCodeBench85.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
19
M2.1
MiniMaxAI
开启思考
SWE-bench Verified74.80
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
20
Step 3.5 Flash
StepFunAI
开启思考
SWE-bench Verified74.40
LiveCodeBench86.40
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
21
GLM-4.7
智谱AI
开启思考工具
SWE-bench Verified73.80
LiveCodeBench—
SWE-Bench Pro - Public40.60
SWE-bench Multilingual—
免费商用
22
DeepSeek V3.2
DeepSeek-AI
开启思考工具
SWE-bench Verified73.10
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
23
Qwen3.5-27B
阿里巴巴
开启思考
SWE-bench Verified72.40
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
24
Kimi K2 Thinking
Moonshot AI
开启思考工具
SWE-bench Verified71.30
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
25
Qwen3-Coder-Next
阿里巴巴
常规模式工具
SWE-bench Verified70.60
LiveCodeBench—
SWE-Bench Pro - Public44.30
SWE-bench Multilingual—
免费商用
26
DeepSeek V3.2
DeepSeek-AI
开启思考
SWE-bench Verified70.20
LiveCodeBench83.30
SWE-Bench Pro - Public40.90
SWE-bench Multilingual—
免费商用
27
Qwen3 Max (Preview)
阿里巴巴
SWE-bench Verified69.60
LiveCodeBench57.50
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
28
MiniMax M2
MiniMaxAI
开启思考工具
SWE-bench Verified69.40
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
29
Kimi K2 0905
Moonshot AI
SWE-bench Verified69.20
LiveCodeBench—
SWE-Bench Pro - Public27.67
SWE-bench Multilingual—
免费商用
30
Kimi K2 0905
Moonshot AI
开启思考工具
SWE-bench Verified69.20
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
31
DeepSeek-V3.1 Terminus
DeepSeek-AI
SWE-bench Verified68.40
LiveCodeBench74.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
32
GLM-4.6
智谱AI
SWE-bench Verified68.00
LiveCodeBench56.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
33
GLM-4.6
智谱AI
开启思考工具
SWE-bench Verified68.00
LiveCodeBench84.50
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
34
DeepSeek V3.2-Exp
DeepSeek-AI
开启思考工具
SWE-bench Verified67.80
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
35
Qwen3-Coder-480B-A35B
阿里巴巴
SWE-bench Verified67.00
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
36
DeepSeek-V3.1
DeepSeek-AI
SWE-bench Verified66.00
LiveCodeBench56.40
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
37
GLM-4.5
智谱AI
开启思考
SWE-bench Verified64.20
LiveCodeBench72.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
38
GLM-4.7-Flash
智谱AI
开启思考
SWE-bench Verified59.20
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
39
DeepSeek-R1-0528
DeepSeek-AI
开启思考
SWE-bench Verified57.60
LiveCodeBench73.30
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
40
GLM-4.5-Air
智谱AI
开启思考
SWE-bench Verified57.60
LiveCodeBench70.70
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
41
MiniMax-M1-80k
MiniMaxAI
SWE-bench Verified56.00
LiveCodeBench65.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
42
MiniMax-M1-40k
MiniMaxAI
SWE-bench Verified55.60
LiveCodeBench62.30
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
43
Kimi K2
Moonshot AI
SWE-bench Verified51.80
LiveCodeBench53.70
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
44
Qwen3-Coder-Flash
阿里巴巴
SWE-bench Verified51.60
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
45
DeepSeek-R1
DeepSeek-AI
SWE-bench Verified49.20
LiveCodeBench65.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
46
DeepSeek-V3-0324
DeepSeek-AI
SWE-bench Verified38.80
LiveCodeBench49.20
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
47
Qwen3-235B-A22B
阿里巴巴
SWE-bench Verified34.40
LiveCodeBench70.70
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
48
Qwen3-30B-A3B-2507
阿里巴巴
开启思考
SWE-bench Verified22.00
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
49
DeepSeek-V3
DeepSeek-AI
SWE-bench Verified—
LiveCodeBench34.60
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
50
Hunyuan-7B
Tencent ARC
SWE-bench Verified—
LiveCodeBench57.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
排序:
已显示 50 / 97 个模型查看 SWE-bench Multilingual 基准测试完整页面