DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-05-20 16:04:12

截至 2026年5月,本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准,聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能,但容易被针对性优化("刷榜")。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示:LMArena Coding Arena 通过匿名盲测评测通用编程能力(调试、算法实现、代码生成等);DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成(网站、UI 组件、游戏等),两者方法论相同但考察场景各异,结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务(调试、算法、代码生成)进行匿名 A/B 盲测投票,Elo 算法动态排名。

数据更新于 2026-05-14

#模型Elo
1
Anthropic
Opus 4.7 (thinking)Anthropic
1563
2
Anthropic
Opus 4.7Anthropic
1551
3
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1550
4
Anthropic
Claude Opus 4.6Anthropic
1549
5
Anthropic
Claude Opus 4 (thinking-32k)Anthropic
1531
6
F
Muse SparkFacebook AI研究实验室
1530
7
OpenAI
GPT-5.4 (high)OpenAI
1527
8
智
GLM 5.1智谱AI
1527
9
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1526
10
Anthropic
Claude Sonnet 4.6Anthropic
1522
来源:LMArena

DesignArena Code Category

完整排名

基于 Arcada Labs 平台,对视觉前端代码任务(网站、UI 组件、游戏、数据可视化等)进行匿名投票,Bradley-Terry 模型动态排名。

数据更新于 2026-05-17

#模型Elo
1
Anthropic
Claude Opus 4.6Anthropic
1348
2
Anthropic
Opus 4.7 (thinking)Anthropic
1345
3
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1344
4
Moonshot AI
Kimi K2.6Moonshot AI
1343
5
智
GLM 5.1智谱AI
1338
6
Anthropic
Opus 4.7Anthropic
1335
7
智
GLM-5-Turbo智谱AI
1334
8
Anthropic
Claude Sonnet 4.6Anthropic
1331
9
X
MiMo-V2.5-ProXiaomi
1329
10
OpenAI
GPT-5.5OpenAI
1320
来源:DesignArena
基准评测
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro - PublicSWE-bench Multilingual
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

榜单亮点

按 LiveCodeBench 排序
当前 SOTA
DeepSeek-AI

DeepSeek-V4-Pro

DeepSeek-AI

93.50LiveCodeBench
查看详情
最佳开源
DeepSeek-AI

DeepSeek-V4-Flash

DeepSeek-AI

91.60LiveCodeBench−1.90
查看详情
最佳国产
Moonshot AI

Kimi K2.6

Moonshot AI

89.60LiveCodeBench−3.90
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。

排名模型
开源情况
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 高
DeepSeek-AI
—93.50——免费商用详情详情
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
开启思考
Google Deep Mind
76.2092.00——闭源详情详情
Google Deep Mind
Gemini 3.1 Pro Preview
思考水平 · 高工具
Google Deep Mind
80.6091.7054.20—闭源详情详情
4
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 高
DeepSeek-AI
—91.60——免费商用详情详情
5
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 高
DeepSeek-AI
—89.80——免费商用详情详情
6
Moonshot AI
Kimi K2.6
开启思考
Moonshot AI
—89.60——免费商用详情详情
7
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 高
DeepSeek-AI
—88.40——免费商用详情详情
8
Google Deep Mind
Gemini 2.5 Deep Think
深度思考模式
Google Deep Mind
—87.60——闭源详情详情
9
阿里巴巴
Qwen 3.6 Plus Preview
开启思考
阿里巴巴
—87.1056.6073.80闭源详情详情
10
Anthropic
Opus 4.5
扩展思考工具
Anthropic
80.9087.00——闭源详情详情
11
StepFunAI
Step 3.5 Flash
开启思考
StepFunAI
74.4086.40——免费商用详情详情
12
阿里巴巴
Qwen3-Max-Thinking
开启思考
阿里巴巴
75.3085.90——闭源详情详情
13
OpenAI
GPT-5.1 Codex
思考水平 · 高工具
OpenAI
70.4085.50——闭源详情详情
14
Moonshot AI
Kimi K2.5
开启思考
Moonshot AI
—85.00—73.00免费商用详情详情
15
智谱AI
GLM-4.7
开启思考
智谱AI
—84.90——免费商用详情详情
16
智谱AI
GLM-4.6
开启思考工具
智谱AI
68.0084.50——免费商用详情详情
17
阿里巴巴
Qwen3.6-27B
开启思考
阿里巴巴
—83.90——免费商用详情详情
18
阿里巴巴
Qwen3.5-397B-A17B
开启思考
阿里巴巴
—83.6050.9069.30免费商用详情详情
19
DeepSeek-AI
DeepSeek V3.2
开启思考
DeepSeek-AI
70.2083.3040.90—免费商用详情详情
20
Moonshot AI
Kimi K2 Thinking
开启思考
Moonshot AI
—83.10——免费商用详情详情
21
MiniMaxAI
MiniMax M2
开启思考
MiniMaxAI
—83.00——免费商用详情详情
22
智谱AI
GLM-4.6
开启思考
智谱AI
—82.80——免费商用详情详情
23
xAI
Grok 4
开启思考
xAI
58.6082.00——闭源详情详情
24
xAI
Grok 4.1 Fast
开启思考
xAI
—82.00——闭源详情详情
25
阿里巴巴
Qwen3.5-27B
开启思考工具
阿里巴巴
—80.70——免费商用详情详情
26
阿里巴巴
Qwen3.6-35B-A3B
开启思考
阿里巴巴
73.4080.4049.5067.20免费商用详情详情
27
Google Deep Mind
Gemini 2.5 Pro Deep Think
Google Deep Mind
—80.40——闭源详情详情
28
DeepMind
Gemma 4 31B
开启思考
DeepMind
—80.00——免费商用详情详情
29
DeepSeek-AI
DeepSeek-V3.1 Terminus
开启思考
DeepSeek-AI
—80.00——免费商用详情详情
30
xAI
Grok 4 Fast
开启思考
xAI
—80.00——闭源详情详情
31
xAI
Grok-3 - Reasoning Beta
xAI
—79.40——闭源详情详情
32
Google Deep Mind
Gemini-2.5-Pro-Preview-05-06
Google Deep Mind
63.2077.10——闭源详情详情
33
DeepMind
Gemma 4 26B A4B
开启思考
DeepMind
—77.10——免费商用详情详情
34
Google Deep Mind
Gemini 2.5-Pro
Google Deep Mind
—77.10——闭源详情详情
35
Anthropic
Claude Opus 4.6
扩展思考
Anthropic
—76.00——闭源详情详情
36
OpenAI
OpenAI o3
OpenAI
—75.80——闭源详情详情
37
DeepSeek-AI
DeepSeek-V3.1 Terminus
DeepSeek-AI
68.4074.90——免费商用详情详情
38
DeepSeek-AI
DeepSeek-V3.1
开启思考
DeepSeek-AI
—74.80——免费商用详情详情
39
DeepSeek-AI
DeepSeek V3.2-Exp
开启思考
DeepSeek-AI
—74.10——免费商用详情详情
40
阿里巴巴
Qwen3-235B-A22B-Thinking
开启思考
阿里巴巴
—74.10——免费商用详情详情
41
阿里巴巴
Qwen3-235B-A22B-Thinking-2507
开启思考
阿里巴巴
—74.10——免费商用详情详情
42
Moonshot AI
Kimi-k1.6-IOI-high
Moonshot AI
—73.80——闭源详情详情
43
DeepSeek-AI
DeepSeek-R1-0528
开启思考
DeepSeek-AI
57.6073.30——免费商用详情详情
44
智谱AI
GLM-4.5
开启思考
智谱AI
64.2072.90——免费商用详情详情
45
OpenAI
OpenAI o1
OpenAI
48.9071.00——闭源详情详情
46
Anthropic
Claude Sonnet 4.5
开启思考
Anthropic
—71.0043.60—闭源详情详情
47
智谱AI
GLM-4.5-Air
开启思考
智谱AI
57.6070.70——免费商用详情详情
48
阿里巴巴
Qwen3-235B-A22B
阿里巴巴
34.4070.70——免费商用详情详情
49
阿里巴巴
Qwen3-235B-A22B
开启思考
阿里巴巴
—70.70——免费商用详情详情
50
xAI
Grok 3
xAI
—70.60——闭源详情详情
DeepSeek-V4-Pro
DeepSeek-AI
思考水平 · 高
SWE-bench Verified—
LiveCodeBench93.50
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
Gemini 3.0 Pro (Preview 11-2025)
Google Deep Mind
开启思考
SWE-bench Verified76.20
LiveCodeBench92.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
Gemini 3.1 Pro Preview
Google Deep Mind
思考水平 · 高工具
SWE-bench Verified80.60
LiveCodeBench91.70
SWE-Bench Pro - Public54.20
SWE-bench Multilingual—
闭源
4
DeepSeek-V4-Flash
DeepSeek-AI
思考水平 · 高
SWE-bench Verified—
LiveCodeBench91.60
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
5
DeepSeek-V4-Pro
DeepSeek-AI
思考水平 · 高
SWE-bench Verified—
LiveCodeBench89.80
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
6
Kimi K2.6
Moonshot AI
开启思考
SWE-bench Verified—
LiveCodeBench89.60
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
7
DeepSeek-V4-Flash
DeepSeek-AI
思考水平 · 高
SWE-bench Verified—
LiveCodeBench88.40
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
8
Gemini 2.5 Deep Think
Google Deep Mind
深度思考模式
SWE-bench Verified—
LiveCodeBench87.60
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
9
Qwen 3.6 Plus Preview
阿里巴巴
开启思考
SWE-bench Verified—
LiveCodeBench87.10
SWE-Bench Pro - Public56.60
SWE-bench Multilingual73.80
闭源
10
Opus 4.5
Anthropic
扩展思考工具
SWE-bench Verified80.90
LiveCodeBench87.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
11
Step 3.5 Flash
StepFunAI
开启思考
SWE-bench Verified74.40
LiveCodeBench86.40
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
12
Qwen3-Max-Thinking
阿里巴巴
开启思考
SWE-bench Verified75.30
LiveCodeBench85.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
13
GPT-5.1 Codex
OpenAI
思考水平 · 高工具
SWE-bench Verified70.40
LiveCodeBench85.50
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
14
Kimi K2.5
Moonshot AI
开启思考
SWE-bench Verified—
LiveCodeBench85.00
SWE-Bench Pro - Public—
SWE-bench Multilingual73.00
免费商用
15
GLM-4.7
智谱AI
开启思考
SWE-bench Verified—
LiveCodeBench84.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
16
GLM-4.6
智谱AI
开启思考工具
SWE-bench Verified68.00
LiveCodeBench84.50
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
17
Qwen3.6-27B
阿里巴巴
开启思考
SWE-bench Verified—
LiveCodeBench83.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
18
Qwen3.5-397B-A17B
阿里巴巴
开启思考
SWE-bench Verified—
LiveCodeBench83.60
SWE-Bench Pro - Public50.90
SWE-bench Multilingual69.30
免费商用
19
DeepSeek V3.2
DeepSeek-AI
开启思考
SWE-bench Verified70.20
LiveCodeBench83.30
SWE-Bench Pro - Public40.90
SWE-bench Multilingual—
免费商用
20
Kimi K2 Thinking
Moonshot AI
开启思考
SWE-bench Verified—
LiveCodeBench83.10
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
21
MiniMax M2
MiniMaxAI
开启思考
SWE-bench Verified—
LiveCodeBench83.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
22
GLM-4.6
智谱AI
开启思考
SWE-bench Verified—
LiveCodeBench82.80
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
23
Grok 4
xAI
开启思考
SWE-bench Verified58.60
LiveCodeBench82.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
24
Grok 4.1 Fast
xAI
开启思考
SWE-bench Verified—
LiveCodeBench82.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
25
Qwen3.5-27B
阿里巴巴
开启思考工具
SWE-bench Verified—
LiveCodeBench80.70
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
26
Qwen3.6-35B-A3B
阿里巴巴
开启思考
SWE-bench Verified73.40
LiveCodeBench80.40
SWE-Bench Pro - Public49.50
SWE-bench Multilingual67.20
免费商用
27
Gemini 2.5 Pro Deep Think
Google Deep Mind
SWE-bench Verified—
LiveCodeBench80.40
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
28
Gemma 4 31B
DeepMind
开启思考
SWE-bench Verified—
LiveCodeBench80.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
29
DeepSeek-V3.1 Terminus
DeepSeek-AI
开启思考
SWE-bench Verified—
LiveCodeBench80.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
30
Grok 4 Fast
xAI
开启思考
SWE-bench Verified—
LiveCodeBench80.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
31
Grok-3 - Reasoning Beta
xAI
SWE-bench Verified—
LiveCodeBench79.40
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
32
Gemini-2.5-Pro-Preview-05-06
Google Deep Mind
SWE-bench Verified63.20
LiveCodeBench77.10
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
33
Gemma 4 26B A4B
DeepMind
开启思考
SWE-bench Verified—
LiveCodeBench77.10
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
34
Gemini 2.5-Pro
Google Deep Mind
SWE-bench Verified—
LiveCodeBench77.10
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
35
Claude Opus 4.6
Anthropic
扩展思考
SWE-bench Verified—
LiveCodeBench76.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
36
OpenAI o3
OpenAI
SWE-bench Verified—
LiveCodeBench75.80
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
37
DeepSeek-V3.1 Terminus
DeepSeek-AI
SWE-bench Verified68.40
LiveCodeBench74.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
38
DeepSeek-V3.1
DeepSeek-AI
开启思考
SWE-bench Verified—
LiveCodeBench74.80
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
39
DeepSeek V3.2-Exp
DeepSeek-AI
开启思考
SWE-bench Verified—
LiveCodeBench74.10
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
40
Qwen3-235B-A22B-Thinking
阿里巴巴
开启思考
SWE-bench Verified—
LiveCodeBench74.10
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
41
Qwen3-235B-A22B-Thinking-2507
阿里巴巴
开启思考
SWE-bench Verified—
LiveCodeBench74.10
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
42
Kimi-k1.6-IOI-high
Moonshot AI
SWE-bench Verified—
LiveCodeBench73.80
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
43
DeepSeek-R1-0528
DeepSeek-AI
开启思考
SWE-bench Verified57.60
LiveCodeBench73.30
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
44
GLM-4.5
智谱AI
开启思考
SWE-bench Verified64.20
LiveCodeBench72.90
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
45
OpenAI o1
OpenAI
SWE-bench Verified48.90
LiveCodeBench71.00
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
46
Claude Sonnet 4.5
Anthropic
开启思考
SWE-bench Verified—
LiveCodeBench71.00
SWE-Bench Pro - Public43.60
SWE-bench Multilingual—
闭源
47
GLM-4.5-Air
智谱AI
开启思考
SWE-bench Verified57.60
LiveCodeBench70.70
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
48
Qwen3-235B-A22B
阿里巴巴
SWE-bench Verified34.40
LiveCodeBench70.70
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
49
Qwen3-235B-A22B
阿里巴巴
开启思考
SWE-bench Verified—
LiveCodeBench70.70
SWE-Bench Pro - Public—
SWE-bench Multilingual—
免费商用
50
Grok 3
xAI
SWE-bench Verified—
LiveCodeBench70.60
SWE-Bench Pro - Public—
SWE-bench Multilingual—
闭源
排序:
已显示 50 / 202 个模型查看 LiveCodeBench 基准测试完整页面