DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-05-02 07:10:24

截至 2026年5月,本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准,聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能,但容易被针对性优化("刷榜")。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示:LMArena Coding Arena 通过匿名盲测评测通用编程能力(调试、算法实现、代码生成等);DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成(网站、UI 组件、游戏等),两者方法论相同但考察场景各异,结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务(调试、算法、代码生成)进行匿名 A/B 盲测投票,Elo 算法动态排名。

数据更新于 2026-05-07

#模型Elo
1
Anthropic
Opus 4.7 (thinking)Anthropic
1569
2
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1553
3
Anthropic
Opus 4.7Anthropic
1550
4
Anthropic
Claude Opus 4.6Anthropic
1550
5
Anthropic
Claude Opus 4 (thinking-32k)Anthropic
1531
6
F
Muse SparkFacebook AI研究实验室
1530
7
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1529
8
OpenAI
gpt-5.4-highOpenAI
1528
9
智
GLM 5.1智谱AI
1525
10
OpenAI
gpt-5.5-highOpenAI
1524
来源:LMArena

DesignArena Code Category

完整排名

基于 Arcada Labs 平台,对视觉前端代码任务(网站、UI 组件、游戏、数据可视化等)进行匿名投票,Bradley-Terry 模型动态排名。

数据更新于 2026-05-10

#模型Elo
1
Anthropic
Claude Opus 4.7 (Thinking)Anthropic
1350
2
Anthropic
Claude Opus 4.6Anthropic
1346
3
Anthropic
Claude Opus 4.6 (Thinking)Anthropic
1344
4
Moonshot AI
Kimi K2.6Moonshot AI
1343
5
Z
GLM 5.1Zhipu AI
1341
6
Anthropic
Opus 4.7Anthropic
1338
7
Z
GLM 5 TurboZhipu AI
1336
8
Anthropic
Claude Sonnet 4.6Anthropic
1331
9
OpenAI
GPT-5.5OpenAI
1314
10
DeepSeek-AI
DeepSeek-V4-ProDeepSeek-AI
1313
来源:DesignArena
基准评测
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro - PublicSWE-bench Multilingual
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

大模型性能评测结果

数据来源:DataLearnerAI
排名模型开源情况
DeepSeek-AI
DeepSeek-V4-Pro
DeepSeek-AI
80.6093.5055.4076.20免费商用
DeepSeek-AI
DeepSeek-V4-Flash
DeepSeek-AI
79.0091.6052.6073.30免费商用
Moonshot AI
Kimi K2.6
Moonshot AI
80.2089.6058.6076.70免费商用
4
StepFunAI
Step 3.5 Flash
StepFunAI
74.4086.40——免费商用
5
阿里巴巴
Qwen3-Max-Thinking
阿里巴巴
75.3085.90——闭源
6
Moonshot AI
Kimi K2.5
Moonshot AI
76.8085.0050.7073.00免费商用
7
智谱AI
GLM-4.7
智谱AI
73.8084.9040.60—免费商用
8
智谱AI
GLM-4.6
智谱AI
68.0084.50——免费商用
9
DeepSeek-AI
DeepSeek V3.2
DeepSeek-AI
73.1083.3040.90—免费商用
10
Moonshot AI
Kimi K2 Thinking
Moonshot AI
71.3083.10——免费商用
11
MiniMaxAI
MiniMax M2
MiniMaxAI
69.4083.00——免费商用
12
DeepSeek-AI
DeepSeek-V3.1 Terminus
DeepSeek-AI
68.4080.00——免费商用
13
DeepSeek-AI
DeepSeek-V3.1
DeepSeek-AI
66.0074.80——免费商用
14
DeepSeek-AI
DeepSeek V3.2-Exp
DeepSeek-AI
67.8074.10——免费商用
15
阿里巴巴
Qwen3-235B-A22B-Thinking-2507
阿里巴巴
—74.10——免费商用
16
Moonshot AI
Kimi-k1.6-IOI-high
Moonshot AI
—73.80——闭源
17
DeepSeek-AI
DeepSeek-R1-0528
DeepSeek-AI
57.6073.30——免费商用
18
智谱AI
GLM-4.5
智谱AI
64.2072.90——免费商用
19
智谱AI
GLM-4.5-Air
智谱AI
57.6070.70——免费商用
20
阿里巴巴
Qwen3-235B-A22B
阿里巴巴
34.4070.70——免费商用
21
StepFunAI
Step3
StepFunAI
—67.10——免费商用
22
DeepSeek-AI
DeepSeek-R1
DeepSeek-AI
49.2065.90——免费商用
23
Moonshot AI
Kimi-k1.6-IOI
Moonshot AI
—65.90——闭源
24
阿里巴巴
QwQ-Max-Preview
阿里巴巴
—65.60——免费商用
25
MiniMaxAI
MiniMax-M1-80k
MiniMaxAI
56.0065.00——免费商用
26
MiniMaxAI
MiniMax-M1-40k
MiniMaxAI
55.6062.30——免费商用
27
Moonshot AI
Kimi K2
Moonshot AI
51.8053.70——免费商用
28
阿里巴巴
Qwen3-235B-A22B-2507
阿里巴巴
—51.80——免费商用
29
DeepSeek-AI
DeepSeek-V3-0324
DeepSeek-AI
38.8049.20——免费商用
30
百度
ERNIE-4.5-VL-424B-A47B-Base
百度
—38.80——免费商用
31
百度
ERNIE-4.5-300B-A47B
百度
—38.80——免费商用
32
DeepSeek-AI
DeepSeek-V3
DeepSeek-AI
—34.60——免费商用
33
腾讯AI实验室
Hunyuan-TurboS
腾讯AI实验室
—32.00——闭源
34
MiniMaxAI
MiniMax M2.5
MiniMaxAI
80.20—55.40—免费商用
35
智谱AI
GLM-5
智谱AI
77.80———免费商用
36
MiniMaxAI
M2.1
MiniMaxAI
74.80—32.60—免费商用
37
Moonshot AI
Kimi K2 0905
Moonshot AI
69.20—27.67—免费商用
38
阿里巴巴
Qwen3-Coder-480B-A35B
阿里巴巴
67.00———免费商用
39
MiniMaxAI
MiniMax-M2.7
MiniMaxAI
——56.20—不可商用
40
阿里巴巴
Qwen3.6-Max-Preview
阿里巴巴
——57.30—闭源
DeepSeek-V4-Pro
DeepSeek-AI
SWE-bench Verified80.60
LiveCodeBench93.50
SWE-Bench Pro - Public55.40
SWE-bench Multilingual76.20
免费商用
DeepSeek-V4-Flash
DeepSeek-AI
SWE-bench Verified79.00
LiveCodeBench91.60
SWE-Bench Pro - Public52.60
SWE-bench Multilingual73.30
免费商用
Kimi K2.6
Moonshot AI
SWE-bench Verified80.20
LiveCodeBench89.60
SWE-Bench Pro - Public58.60
SWE-bench Multilingual76.70
免费商用
4
Step 3.5 Flash
StepFunAI
SWE-bench Verified74.40
LiveCodeBench86.40
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
5
Qwen3-Max-Thinking
阿里巴巴
SWE-bench Verified75.30
LiveCodeBench85.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
6
Kimi K2.5
Moonshot AI
SWE-bench Verified76.80
LiveCodeBench85.00
SWE-Bench Pro - Public50.70
SWE-bench Multilingual73.00
免费商用
7
GLM-4.7
智谱AI
SWE-bench Verified73.80
LiveCodeBench84.90
SWE-Bench Pro - Public40.60
SWE-bench Multilingual—
免费商用
8
GLM-4.6
智谱AI
SWE-bench Verified68.00
LiveCodeBench84.50
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
9
DeepSeek V3.2
DeepSeek-AI
SWE-bench Verified73.10
LiveCodeBench83.30
SWE-Bench Pro - Public40.90
SWE-bench Multilingual—
免费商用
10
Kimi K2 Thinking
Moonshot AI
SWE-bench Verified71.30
LiveCodeBench83.10
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
11
MiniMax M2
MiniMaxAI
SWE-bench Verified69.40
LiveCodeBench83.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
12
DeepSeek-V3.1 Terminus
DeepSeek-AI
SWE-bench Verified68.40
LiveCodeBench80.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
13
DeepSeek-V3.1
DeepSeek-AI
SWE-bench Verified66.00
LiveCodeBench74.80
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
14
DeepSeek V3.2-Exp
DeepSeek-AI
SWE-bench Verified67.80
LiveCodeBench74.10
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
15
Qwen3-235B-A22B-Thinking-2507
阿里巴巴
SWE-bench Verified—
LiveCodeBench74.10
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
16
Kimi-k1.6-IOI-high
Moonshot AI
SWE-bench Verified—
LiveCodeBench73.80
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
17
DeepSeek-R1-0528
DeepSeek-AI
SWE-bench Verified57.60
LiveCodeBench73.30
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
18
GLM-4.5
智谱AI
SWE-bench Verified64.20
LiveCodeBench72.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
19
GLM-4.5-Air
智谱AI
SWE-bench Verified57.60
LiveCodeBench70.70
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
20
Qwen3-235B-A22B
阿里巴巴
SWE-bench Verified34.40
LiveCodeBench70.70
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
21
Step3
StepFunAI
SWE-bench Verified—
LiveCodeBench67.10
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
22
DeepSeek-R1
DeepSeek-AI
SWE-bench Verified49.20
LiveCodeBench65.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
23
Kimi-k1.6-IOI
Moonshot AI
SWE-bench Verified—
LiveCodeBench65.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
24
QwQ-Max-Preview
阿里巴巴
SWE-bench Verified—
LiveCodeBench65.60
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
25
MiniMax-M1-80k
MiniMaxAI
SWE-bench Verified56.00
LiveCodeBench65.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
26
MiniMax-M1-40k
MiniMaxAI
SWE-bench Verified55.60
LiveCodeBench62.30
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
27
Kimi K2
Moonshot AI
SWE-bench Verified51.80
LiveCodeBench53.70
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
28
Qwen3-235B-A22B-2507
阿里巴巴
SWE-bench Verified—
LiveCodeBench51.80
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
29
DeepSeek-V3-0324
DeepSeek-AI
SWE-bench Verified38.80
LiveCodeBench49.20
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
30
ERNIE-4.5-VL-424B-A47B-Base
百度
SWE-bench Verified—
LiveCodeBench38.80
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
31
ERNIE-4.5-300B-A47B
百度
SWE-bench Verified—
LiveCodeBench38.80
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
32
DeepSeek-V3
DeepSeek-AI
SWE-bench Verified—
LiveCodeBench34.60
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
33
Hunyuan-TurboS
腾讯AI实验室
SWE-bench Verified—
LiveCodeBench32.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
34
MiniMax M2.5
MiniMaxAI
SWE-bench Verified80.20
LiveCodeBench—
SWE-Bench Pro - Public55.40
SWE-bench Multilingual—
免费商用
35
GLM-5
智谱AI
SWE-bench Verified77.80
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
36
M2.1
MiniMaxAI
SWE-bench Verified74.80
LiveCodeBench—
SWE-Bench Pro - Public32.60
SWE-bench Multilingual—
免费商用
37
Kimi K2 0905
Moonshot AI
SWE-bench Verified69.20
LiveCodeBench—
SWE-Bench Pro - Public27.67
SWE-bench Multilingual—
免费商用
38
Qwen3-Coder-480B-A35B
阿里巴巴
SWE-bench Verified67.00
LiveCodeBench—
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
39
MiniMax-M2.7
MiniMaxAI
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public56.20
SWE-bench Multilingual—
不可商用
40
Qwen3.6-Max-Preview
阿里巴巴
SWE-bench Verified—
LiveCodeBench—
SWE-Bench Pro - Public57.30
SWE-bench Multilingual—
闭源
排序: