大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-07-25 08:45:02

截至 2026年7月，本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准，聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能，但容易被针对性优化（"刷榜"）。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示：LMArena Coding Arena 通过匿名盲测评测通用编程能力（调试、算法实现、代码生成等）；DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成（网站、UI 组件、游戏等），两者方法论相同但考察场景各异，结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务（调试、算法、代码生成）进行匿名 A/B 盲测投票，Elo 算法动态排名。

数据更新于 2026-08-01

#模型Elo

Claude Fable 5Anthropic

1553

Opus 4.7 (thinking)Anthropic

1552

Claude Opus 4.6 (thinking)Anthropic

1551

Claude Opus 4.6Anthropic

1548

Opus 4.7Anthropic

1547

Claude Opus 4.8 (thinking)Anthropic

1534

claude-opus-5-highAnthropic

1532

kimi-k3-maxMoonshot

1531

Claude Opus 4 (thinking-32k)Anthropic

1530

Muse Spark 1.1Facebook AI研究实验室

1529

来源：LMArena

DesignArena Code Category

完整排名

基于 Arcada Labs 平台，对视觉前端代码任务（网站、UI 组件、游戏、数据可视化等）进行匿名投票，Bradley-Terry 模型动态排名。

数据更新于 2026-08-02

#模型Elo

Kimi K3Moonshot AI

1417

Claude Opus 5Anthropic

1356

GPT-5.6 SolOpenAI

1352

智

GLM-5.2智谱AI

1343

Claude Fable 5Anthropic

1342

Claude Opus 4.6Anthropic

1323

Claude Opus 4.6 (thinking)Anthropic

1318

Opus 4.7Anthropic

1318

Gemini 3.6 FlashGoogle

1315

Grok 4.5xAI

1312

来源：DesignArena

基准评测

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 SWE-bench Verified 排序

当前 SOTA

Claude Opus 5

Anthropic

96.00SWE-bench Verified

查看详情

最佳开源

DeepSeek-V4-Pro

DeepSeek-AI

80.60SWE-bench Verified−15.40

查看详情

最佳国产

DeepSeek-V4-Pro

DeepSeek-AI

80.60SWE-bench Verified−15.40

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	Claude Opus 5 思考水平 · 高工具 Anthropic	96.00	—	79.20	89.50	闭源	详情
	Claude Fable 5 开启思考工具 Anthropic	95.00	—	—	—	闭源	详情
	Claude Fable 5 深度思考模式工具 Anthropic	95.00	—	80.30	—	闭源	详情
4	Claude Mythos Preview 扩展思考工具 Anthropic	93.90	—	77.80	87.30	闭源	详情
5	Claude Opus 4.8 扩展思考工具 Anthropic	88.60	—	69.20	—	闭源	详情
6	Opus 4.7 扩展思考工具 Anthropic	87.60	—	64.30	—	闭源	详情
7	Claude Sonnet 5 思考水平 · 极高工具 Anthropic	85.20	—	—	—	闭源	详情
8	Claude Sonnet 4.5 并行 · 开启思考工具 Anthropic	82.00	—	—	—	闭源	详情
9	Opus 4.5 扩展思考工具 Anthropic	80.90	87.00	—	—	闭源	详情
10	Claude Opus 4.6 扩展思考工具 Anthropic	80.84	—	—	72.00	闭源	详情
11	Gemini 3.1 Pro Preview 开启思考工具 Google Deep Mind	80.60	91.70	54.20	—	闭源	详情
12	DeepSeek-V4-Pro 思考水平 · 极高工具 DeepSeek-AI	80.60	—	55.40	76.20	免费商用	详情
13	Qwen3.7-Max-Preview 开启思考工具阿里巴巴	80.40	—	60.60	78.30	闭源	详情
14	Kimi K2.6 开启思考工具 Moonshot AI	80.20	—	58.60	76.70	免费商用	详情
15	MiniMax M2.5 开启思考工具 MiniMaxAI	80.20	—	55.40	—	免费商用	详情
16	Claude Sonnet 4 并行 · 开启思考工具 Anthropic	80.20	—	—	—	闭源	详情
17	GPT-5.2 思考水平 · 极高工具 OpenAI	80.00	—	55.60	—	闭源	详情
18	Claude Sonnet 4.6 开启思考 Anthropic	79.60	—	—	—	闭源	详情
19	DeepSeek-V4-Pro 开启思考工具 DeepSeek-AI	79.40	—	54.40	74.10	免费商用	详情
20	DeepSeek-V4-Flash 思考水平 · 极高工具 DeepSeek-AI	79.00	—	52.60	73.30	免费商用	详情
21	Qwen 3.6 Plus Preview 开启思考工具阿里巴巴	78.80	—	56.60	—	闭源	详情
22	Qwen3.6-Max-Preview 开启思考工具阿里巴巴	78.80	—	56.60	73.80	闭源	详情
23	DeepSeek-V4-Flash 开启思考工具 DeepSeek-AI	78.60	—	52.30	70.20	免费商用	详情
24	Hy3 开启思考工具腾讯AI实验室	78.00	—	57.90	75.80	免费商用	详情
25	GLM-5 开启思考智谱AI	77.80	—	—	—	免费商用	详情
26	Inkling 开启思考工具 Thinking Machines Lab	77.60	—	54.30	—	免费商用	详情
27	Muse Spark 开启思考工具 Facebook AI研究实验室	77.40	—	—	—	闭源	详情
28	Claude Sonnet 4.5 开启思考工具 Anthropic	77.20	—	—	—	闭源	详情
29	Qwen3.6-27B 开启思考工具阿里巴巴	77.20	—	53.50	71.30	免费商用	详情
30	GPT-5.1-Codex-Max 思考水平 · 高工具 OpenAI	76.80	—	—	—	闭源	详情
31	Kimi K2.5 开启思考工具 Moonshot AI	76.80	—	50.70	—	免费商用	详情
32	Doubao Seed 2.0 Pro 开启思考工具字节跳动Seed团队	76.50	—	46.90	71.70	闭源	详情
33	Qwen3.5-397B-A17B 开启思考工具阿里巴巴	76.40	—	—	—	免费商用	详情
34	GPT-5.1 开启思考工具 OpenAI	76.30	—	—	—	闭源	详情
35	GPT-5.1 思考水平 · 高 OpenAI	76.30	—	—	—	闭源	详情
36	Gemini 3.0 Pro (Preview 11-2025) 开启思考 Google Deep Mind	76.20	92.00	—	—	闭源	详情
37	Qwen3-Max-Thinking 开启思考阿里巴巴	75.30	85.90	—	—	闭源	详情
38	o3-pro 思考水平 · 高 OpenAI	75.00	—	—	—	闭源	详情
39	M2.1 开启思考 MiniMaxAI	74.80	—	—	—	免费商用	详情
40	Opus 4.1 扩展思考工具 Anthropic	74.50	—	—	—	闭源	详情
41	GPT-5 Codex 思考水平 · 高 OpenAI	74.50	—	—	—	闭源	详情
42	Step 3.5 Flash 开启思考 StepFunAI	74.40	86.40	—	—	免费商用	详情
43	GLM-4.7 开启思考工具智谱AI	73.80	—	40.60	—	免费商用	详情
44	DeepSeek-V4-Flash 常规模式工具 DeepSeek-AI	73.70	—	49.10	69.70	免费商用	详情
45	DeepSeek-V4-Pro 常规模式工具 DeepSeek-AI	73.60	—	52.10	69.80	免费商用	详情
46	Grok 4 Heavy 并行 · 开启思考工具 xAI	73.50	—	—	—	闭源	详情
47	Qwen3.6-35B-A3B 开启思考阿里巴巴	73.40	80.40	49.50	67.20	免费商用	详情
48	Haiku 4.5 开启思考工具 Anthropic	73.30	—	—	—	闭源	详情
49	DeepSeek V3.2 开启思考工具 DeepSeek-AI	73.10	—	—	—	免费商用	详情
50	GPT-5 思考水平 · 高 OpenAI	72.80	—	36.30	—	闭源	详情

Claude Opus 5 Anthropic

思考水平 · 高工具

SWE-bench Verified96.00

LiveCodeBench—

SWE-Bench Pro - Public79.20

SWE-bench Multilingual89.50

闭源

Claude Fable 5 Anthropic

开启思考工具

SWE-bench Verified95.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Claude Fable 5 Anthropic

深度思考模式工具

SWE-bench Verified95.00

LiveCodeBench—

SWE-Bench Pro - Public80.30

SWE-bench Multilingual—

闭源

Claude Mythos Preview Anthropic

扩展思考工具

SWE-bench Verified93.90

LiveCodeBench—

SWE-Bench Pro - Public77.80

SWE-bench Multilingual87.30

闭源

Claude Opus 4.8 Anthropic

扩展思考工具

SWE-bench Verified88.60

LiveCodeBench—

SWE-Bench Pro - Public69.20

SWE-bench Multilingual—

闭源

Opus 4.7 Anthropic

扩展思考工具

SWE-bench Verified87.60

LiveCodeBench—

SWE-Bench Pro - Public64.30

SWE-bench Multilingual—

闭源

Claude Sonnet 5 Anthropic

思考水平 · 极高工具

SWE-bench Verified85.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Claude Sonnet 4.5 Anthropic

并行 · 开启思考工具

SWE-bench Verified82.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Opus 4.5 Anthropic

扩展思考工具

SWE-bench Verified80.90

LiveCodeBench87.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Claude Opus 4.6 Anthropic

扩展思考工具

SWE-bench Verified80.84

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual72.00

闭源

Gemini 3.1 Pro Preview Google Deep Mind

开启思考工具

SWE-bench Verified80.60

LiveCodeBench91.70

SWE-Bench Pro - Public54.20

SWE-bench Multilingual—

闭源

DeepSeek-V4-Pro DeepSeek-AI

思考水平 · 极高工具

SWE-bench Verified80.60

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual76.20

免费商用

Qwen3.7-Max-Preview 阿里巴巴

开启思考工具

SWE-bench Verified80.40

LiveCodeBench—

SWE-Bench Pro - Public60.60

SWE-bench Multilingual78.30

闭源

Kimi K2.6 Moonshot AI

开启思考工具

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public58.60

SWE-bench Multilingual76.70

免费商用

MiniMax M2.5 MiniMaxAI

开启思考工具

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual—

免费商用

Claude Sonnet 4 Anthropic

并行 · 开启思考工具

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

GPT-5.2 OpenAI

思考水平 · 极高工具

SWE-bench Verified80.00

LiveCodeBench—

SWE-Bench Pro - Public55.60

SWE-bench Multilingual—

闭源

Claude Sonnet 4.6 Anthropic

开启思考

SWE-bench Verified79.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

DeepSeek-V4-Pro DeepSeek-AI

开启思考工具

SWE-bench Verified79.40

LiveCodeBench—

SWE-Bench Pro - Public54.40

SWE-bench Multilingual74.10

免费商用

DeepSeek-V4-Flash DeepSeek-AI

思考水平 · 极高工具

SWE-bench Verified79.00

LiveCodeBench—

SWE-Bench Pro - Public52.60

SWE-bench Multilingual73.30

免费商用

Qwen 3.6 Plus Preview 阿里巴巴

开启思考工具

SWE-bench Verified78.80

LiveCodeBench—

SWE-Bench Pro - Public56.60

SWE-bench Multilingual—

闭源

Qwen3.6-Max-Preview 阿里巴巴

开启思考工具

SWE-bench Verified78.80

LiveCodeBench—

SWE-Bench Pro - Public56.60

SWE-bench Multilingual73.80

闭源

DeepSeek-V4-Flash DeepSeek-AI

开启思考工具

SWE-bench Verified78.60

LiveCodeBench—

SWE-Bench Pro - Public52.30

SWE-bench Multilingual70.20

免费商用

Hy3 腾讯AI实验室

开启思考工具

SWE-bench Verified78.00

LiveCodeBench—

SWE-Bench Pro - Public57.90

SWE-bench Multilingual75.80

免费商用

GLM-5 智谱AI

开启思考

SWE-bench Verified77.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Inkling Thinking Machines Lab

开启思考工具

SWE-bench Verified77.60

LiveCodeBench—

SWE-Bench Pro - Public54.30

SWE-bench Multilingual—

免费商用

Muse Spark Facebook AI研究实验室

开启思考工具

SWE-bench Verified77.40

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Claude Sonnet 4.5 Anthropic

开启思考工具

SWE-bench Verified77.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Qwen3.6-27B 阿里巴巴

开启思考工具

SWE-bench Verified77.20

LiveCodeBench—

SWE-Bench Pro - Public53.50

SWE-bench Multilingual71.30

免费商用

GPT-5.1-Codex-Max OpenAI

思考水平 · 高工具

SWE-bench Verified76.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Kimi K2.5 Moonshot AI

开启思考工具

SWE-bench Verified76.80

LiveCodeBench—

SWE-Bench Pro - Public50.70

SWE-bench Multilingual—

免费商用

Doubao Seed 2.0 Pro 字节跳动Seed团队

开启思考工具

SWE-bench Verified76.50

LiveCodeBench—

SWE-Bench Pro - Public46.90

SWE-bench Multilingual71.70

闭源

Qwen3.5-397B-A17B 阿里巴巴

开启思考工具

SWE-bench Verified76.40

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GPT-5.1 OpenAI

开启思考工具

SWE-bench Verified76.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

GPT-5.1 OpenAI

思考水平 · 高

SWE-bench Verified76.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

开启思考

SWE-bench Verified76.20

LiveCodeBench92.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Qwen3-Max-Thinking 阿里巴巴

开启思考

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

o3-pro OpenAI

思考水平 · 高

SWE-bench Verified75.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

M2.1 MiniMaxAI

开启思考

SWE-bench Verified74.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Opus 4.1 Anthropic

扩展思考工具

SWE-bench Verified74.50

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

GPT-5 Codex OpenAI

思考水平 · 高

SWE-bench Verified74.50

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Step 3.5 Flash StepFunAI

开启思考

SWE-bench Verified74.40

LiveCodeBench86.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GLM-4.7 智谱AI

开启思考工具

SWE-bench Verified73.80

LiveCodeBench—

SWE-Bench Pro - Public40.60

SWE-bench Multilingual—

免费商用

DeepSeek-V4-Flash DeepSeek-AI

常规模式工具

SWE-bench Verified73.70

LiveCodeBench—

SWE-Bench Pro - Public49.10

SWE-bench Multilingual69.70

免费商用

DeepSeek-V4-Pro DeepSeek-AI

常规模式工具

SWE-bench Verified73.60

LiveCodeBench—

SWE-Bench Pro - Public52.10

SWE-bench Multilingual69.80

免费商用

Grok 4 Heavy xAI

并行 · 开启思考工具

SWE-bench Verified73.50

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Qwen3.6-35B-A3B 阿里巴巴

开启思考

SWE-bench Verified73.40

LiveCodeBench80.40

SWE-Bench Pro - Public49.50

SWE-bench Multilingual67.20

免费商用

Haiku 4.5 Anthropic

开启思考工具

SWE-bench Verified73.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

DeepSeek V3.2 DeepSeek-AI

开启思考工具

SWE-bench Verified73.10

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GPT-5 OpenAI

思考水平 · 高

SWE-bench Verified72.80

LiveCodeBench—

SWE-Bench Pro - Public36.30

SWE-bench Multilingual—

闭源

排序：

已显示 50 / 224 个模型查看 SWE-bench Verified 基准测试完整页面