大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-07-25 08:45:02

截至 2026年7月，本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准，聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能，但容易被针对性优化（"刷榜"）。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示：LMArena Coding Arena 通过匿名盲测评测通用编程能力（调试、算法实现、代码生成等）；DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成（网站、UI 组件、游戏等），两者方法论相同但考察场景各异，结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务（调试、算法、代码生成）进行匿名 A/B 盲测投票，Elo 算法动态排名。

数据更新于 2026-07-16

#模型Elo

Opus 4.7 (thinking)Anthropic

1553

Claude Fable 5Anthropic

1551

Claude Opus 4.6 (thinking)Anthropic

1550

Claude Opus 4.6Anthropic

1549

Opus 4.7Anthropic

1548

Claude Opus 4.8 (thinking)Anthropic

1535

Claude Opus 4.8Anthropic

1533

Muse Spark 1.1Facebook AI研究实验室

1532

Claude Opus 4 (thinking-32k)Anthropic

1530

Kimi K3Moonshot AI

1529

来源：LMArena

DesignArena Code Category

完整排名

基于 Arcada Labs 平台，对视觉前端代码任务（网站、UI 组件、游戏、数据可视化等）进行匿名投票，Bradley-Terry 模型动态排名。

数据更新于 2026-07-19

#模型Elo

GPT-5.6 SolOpenAI

1359

智

GLM-5.2智谱AI

1345

Claude Fable 5Anthropic

1343

Claude Opus 4.6Anthropic

1330

Grok 4.5xAI

1328

Claude Opus 4.6 (thinking)Anthropic

1325

Opus 4.7Anthropic

1325

智

GLM 5.1智谱AI

1316

Kimi K2.6Moonshot AI

1314

Claude Sonnet 4.6Anthropic

1313

来源：DesignArena

基准评测

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 SWE-Bench Pro - Public 排序

当前 SOTA

Claude Fable 5

Anthropic

80.30SWE-Bench Pro - Public

查看详情

最佳开源

GLM-5.2

智谱AI

62.10SWE-Bench Pro - Public−18.20

查看详情

最佳国产

GLM-5.2

智谱AI

62.10SWE-Bench Pro - Public−18.20

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	Claude Fable 5 深度思考模式工具 Anthropic	95.00	—	80.30	—	闭源	详情
	Claude Opus 5 思考水平 · 高工具 Anthropic	96.00	—	79.20	89.50	闭源	详情
	Claude Mythos Preview 扩展思考工具 Anthropic	93.90	—	77.80	87.30	闭源	详情
4	Claude Opus 4.8 扩展思考工具 Anthropic	88.60	—	69.20	—	闭源	详情
5	Grok 4.5 开启思考工具 xAI	—	—	64.70	—	闭源	详情
6	GPT-5.6 Sol 思考水平 · 极高工具 OpenAI	—	—	64.60	—	闭源	详情
7	Opus 4.7 扩展思考工具 Anthropic	87.60	—	64.30	—	闭源	详情
8	GLM-5.2 开启思考工具智谱AI	—	—	62.10	—	免费商用	详情
9	Muse Spark 1.1 开启思考工具 Facebook AI研究实验室	—	—	61.50	—	闭源	详情
10	Qwen3.7-Max-Preview 开启思考工具阿里巴巴	80.40	—	60.60	78.30	闭源	详情
11	MiniMax M3 开启思考工具 MiniMaxAI	—	—	59.00	—	不可商用	详情
12	Gemini 3.6 Flash 开启思考工具 Google Deep Mind	—	—	58.70	—	闭源	详情
13	Kimi K2.6 开启思考工具 Moonshot AI	80.20	—	58.60	76.70	免费商用	详情
14	GPT-5.5 开启思考工具 OpenAI	—	—	58.60	—	闭源	详情
15	GLM 5.1 开启思考工具智谱AI	—	—	58.40	—	免费商用	详情
16	Hy3 开启思考工具腾讯AI实验室	78.00	—	57.90	75.80	免费商用	详情
17	GPT-5.4 思考水平 · 极高 OpenAI	—	—	57.70	—	闭源	详情
18	Qwen3.6-Max-Preview 深度思考模式工具阿里巴巴	—	—	57.30	—	闭源	详情
19	GPT-5.3 Codex OpenAI	—	—	56.80	—	闭源	详情
20	Qwen 3.6 Plus Preview 开启思考工具阿里巴巴	78.80	—	56.60	—	闭源	详情
21	Qwen3.6-Max-Preview 开启思考工具阿里巴巴	78.80	—	56.60	73.80	闭源	详情
22	Qwen 3.6 Plus Preview 开启思考阿里巴巴	—	87.10	56.60	73.80	闭源	详情
23	Step 3.7 Flash 开启思考工具 StepFunAI	—	—	56.30	—	免费商用	详情
24	MiniMax-M2.7 开启思考工具 MiniMaxAI	—	—	56.20	—	不可商用	详情
25	GPT-5.2 思考水平 · 极高工具 OpenAI	80.00	—	55.60	—	闭源	详情
26	DeepSeek-V4-Pro 思考水平 · 极高工具 DeepSeek-AI	80.60	—	55.40	76.20	免费商用	详情
27	MiniMax M2.5 开启思考工具 MiniMaxAI	80.20	—	55.40	—	免费商用	详情
28	Gemini 3.5 Flash 开启思考工具 Google Deep Mind	—	—	55.10	—	闭源	详情
29	DeepSeek-V4-Pro 开启思考工具 DeepSeek-AI	79.40	—	54.40	74.10	免费商用	详情
30	GPT-5.4 mini 思考水平 · 极高工具 OpenAI	—	—	54.40	—	闭源	详情
31	Inkling 开启思考工具 Thinking Machines Lab	77.60	—	54.30	—	免费商用	详情
32	Gemini 3.1 Pro Preview 开启思考工具 Google Deep Mind	80.60	91.70	54.20	—	闭源	详情
33	Gemini 3.5 Flash-Lite 开启思考工具 Google Deep Mind	—	—	54.20	—	闭源	详情
34	Qwen3.6-27B 开启思考工具阿里巴巴	77.20	—	53.50	71.30	免费商用	详情
35	DeepSeek-V4-Flash 思考水平 · 极高工具 DeepSeek-AI	79.00	—	52.60	73.30	免费商用	详情
36	GPT-5.4 nano 思考水平 · 极高工具 OpenAI	—	—	52.40	—	闭源	详情
37	DeepSeek-V4-Flash 开启思考工具 DeepSeek-AI	78.60	—	52.30	70.20	免费商用	详情
38	DeepSeek-V4-Pro 常规模式工具 DeepSeek-AI	73.60	—	52.10	69.80	免费商用	详情
39	Qwen3.5-397B-A17B 开启思考阿里巴巴	—	83.60	50.90	69.30	免费商用	详情
40	GPT-5.1 开启思考 OpenAI	—	—	50.80	—	闭源	详情
41	Kimi K2.5 开启思考工具 Moonshot AI	76.80	—	50.70	—	免费商用	详情
42	Gemini 3.0 Flash 开启思考工具 Google Deep Mind	—	—	49.60	—	闭源	详情
43	Qwen3.6-35B-A3B 开启思考阿里巴巴	73.40	80.40	49.50	67.20	免费商用	详情
44	DeepSeek-V4-Flash 常规模式工具 DeepSeek-AI	73.70	—	49.10	69.70	免费商用	详情
45	Doubao Seed 2.0 Pro 开启思考工具字节跳动Seed团队	76.50	—	46.90	71.70	闭源	详情
46	Qwen3-Coder-Next 常规模式工具阿里巴巴	70.60	—	44.30	—	免费商用	详情
47	Claude Sonnet 4.5 开启思考 Anthropic	—	71.00	43.60	—	闭源	详情
48	Claude Sonnet 4 开启思考 Anthropic	—	66.00	42.70	—	闭源	详情
49	DeepSeek V3.2 开启思考 DeepSeek-AI	70.20	83.30	40.90	—	免费商用	详情
50	GLM-4.7 开启思考工具智谱AI	73.80	—	40.60	—	免费商用	详情

Claude Fable 5 Anthropic

深度思考模式工具

SWE-bench Verified95.00

LiveCodeBench—

SWE-Bench Pro - Public80.30

SWE-bench Multilingual—

闭源

Claude Opus 5 Anthropic

思考水平 · 高工具

SWE-bench Verified96.00

LiveCodeBench—

SWE-Bench Pro - Public79.20

SWE-bench Multilingual89.50

闭源

Claude Mythos Preview Anthropic

扩展思考工具

SWE-bench Verified93.90

LiveCodeBench—

SWE-Bench Pro - Public77.80

SWE-bench Multilingual87.30

闭源

Claude Opus 4.8 Anthropic

扩展思考工具

SWE-bench Verified88.60

LiveCodeBench—

SWE-Bench Pro - Public69.20

SWE-bench Multilingual—

闭源

Grok 4.5 xAI

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public64.70

SWE-bench Multilingual—

闭源

GPT-5.6 Sol OpenAI

思考水平 · 极高工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public64.60

SWE-bench Multilingual—

闭源

Opus 4.7 Anthropic

扩展思考工具

SWE-bench Verified87.60

LiveCodeBench—

SWE-Bench Pro - Public64.30

SWE-bench Multilingual—

闭源

GLM-5.2 智谱AI

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public62.10

SWE-bench Multilingual—

免费商用

Muse Spark 1.1 Facebook AI研究实验室

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public61.50

SWE-bench Multilingual—

闭源

Qwen3.7-Max-Preview 阿里巴巴

开启思考工具

SWE-bench Verified80.40

LiveCodeBench—

SWE-Bench Pro - Public60.60

SWE-bench Multilingual78.30

闭源

MiniMax M3 MiniMaxAI

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public59.00

SWE-bench Multilingual—

不可商用

Gemini 3.6 Flash Google Deep Mind

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public58.70

SWE-bench Multilingual—

闭源

Kimi K2.6 Moonshot AI

开启思考工具

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public58.60

SWE-bench Multilingual76.70

免费商用

GPT-5.5 OpenAI

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public58.60

SWE-bench Multilingual—

闭源

GLM 5.1 智谱AI

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public58.40

SWE-bench Multilingual—

免费商用

Hy3 腾讯AI实验室

开启思考工具

SWE-bench Verified78.00

LiveCodeBench—

SWE-Bench Pro - Public57.90

SWE-bench Multilingual75.80

免费商用

GPT-5.4 OpenAI

思考水平 · 极高

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public57.70

SWE-bench Multilingual—

闭源

Qwen3.6-Max-Preview 阿里巴巴

深度思考模式工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public57.30

SWE-bench Multilingual—

闭源

GPT-5.3 Codex OpenAI

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public56.80

SWE-bench Multilingual—

闭源

Qwen 3.6 Plus Preview 阿里巴巴

开启思考工具

SWE-bench Verified78.80

LiveCodeBench—

SWE-Bench Pro - Public56.60

SWE-bench Multilingual—

闭源

Qwen3.6-Max-Preview 阿里巴巴

开启思考工具

SWE-bench Verified78.80

LiveCodeBench—

SWE-Bench Pro - Public56.60

SWE-bench Multilingual73.80

闭源

Qwen 3.6 Plus Preview 阿里巴巴

开启思考

SWE-bench Verified—

LiveCodeBench87.10

SWE-Bench Pro - Public56.60

SWE-bench Multilingual73.80

闭源

Step 3.7 Flash StepFunAI

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public56.30

SWE-bench Multilingual—

免费商用

MiniMax-M2.7 MiniMaxAI

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public56.20

SWE-bench Multilingual—

不可商用

GPT-5.2 OpenAI

思考水平 · 极高工具

SWE-bench Verified80.00

LiveCodeBench—

SWE-Bench Pro - Public55.60

SWE-bench Multilingual—

闭源

DeepSeek-V4-Pro DeepSeek-AI

思考水平 · 极高工具

SWE-bench Verified80.60

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual76.20

免费商用

MiniMax M2.5 MiniMaxAI

开启思考工具

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual—

免费商用

Gemini 3.5 Flash Google Deep Mind

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public55.10

SWE-bench Multilingual—

闭源

DeepSeek-V4-Pro DeepSeek-AI

开启思考工具

SWE-bench Verified79.40

LiveCodeBench—

SWE-Bench Pro - Public54.40

SWE-bench Multilingual74.10

免费商用

GPT-5.4 mini OpenAI

思考水平 · 极高工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public54.40

SWE-bench Multilingual—

闭源

Inkling Thinking Machines Lab

开启思考工具

SWE-bench Verified77.60

LiveCodeBench—

SWE-Bench Pro - Public54.30

SWE-bench Multilingual—

免费商用

Gemini 3.1 Pro Preview Google Deep Mind

开启思考工具

SWE-bench Verified80.60

LiveCodeBench91.70

SWE-Bench Pro - Public54.20

SWE-bench Multilingual—

闭源

Gemini 3.5 Flash-Lite Google Deep Mind

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public54.20

SWE-bench Multilingual—

闭源

Qwen3.6-27B 阿里巴巴

开启思考工具

SWE-bench Verified77.20

LiveCodeBench—

SWE-Bench Pro - Public53.50

SWE-bench Multilingual71.30

免费商用

DeepSeek-V4-Flash DeepSeek-AI

思考水平 · 极高工具

SWE-bench Verified79.00

LiveCodeBench—

SWE-Bench Pro - Public52.60

SWE-bench Multilingual73.30

免费商用

GPT-5.4 nano OpenAI

思考水平 · 极高工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public52.40

SWE-bench Multilingual—

闭源

DeepSeek-V4-Flash DeepSeek-AI

开启思考工具

SWE-bench Verified78.60

LiveCodeBench—

SWE-Bench Pro - Public52.30

SWE-bench Multilingual70.20

免费商用

DeepSeek-V4-Pro DeepSeek-AI

常规模式工具

SWE-bench Verified73.60

LiveCodeBench—

SWE-Bench Pro - Public52.10

SWE-bench Multilingual69.80

免费商用

Qwen3.5-397B-A17B 阿里巴巴

开启思考

SWE-bench Verified—

LiveCodeBench83.60

SWE-Bench Pro - Public50.90

SWE-bench Multilingual69.30

免费商用

GPT-5.1 OpenAI

开启思考

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public50.80

SWE-bench Multilingual—

闭源

Kimi K2.5 Moonshot AI

开启思考工具

SWE-bench Verified76.80

LiveCodeBench—

SWE-Bench Pro - Public50.70

SWE-bench Multilingual—

免费商用

Gemini 3.0 Flash Google Deep Mind

开启思考工具

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public49.60

SWE-bench Multilingual—

闭源

Qwen3.6-35B-A3B 阿里巴巴

开启思考

SWE-bench Verified73.40

LiveCodeBench80.40

SWE-Bench Pro - Public49.50

SWE-bench Multilingual67.20

免费商用

DeepSeek-V4-Flash DeepSeek-AI

常规模式工具

SWE-bench Verified73.70

LiveCodeBench—

SWE-Bench Pro - Public49.10

SWE-bench Multilingual69.70

免费商用

Doubao Seed 2.0 Pro 字节跳动Seed团队

开启思考工具

SWE-bench Verified76.50

LiveCodeBench—

SWE-Bench Pro - Public46.90

SWE-bench Multilingual71.70

闭源

Qwen3-Coder-Next 阿里巴巴

常规模式工具

SWE-bench Verified70.60

LiveCodeBench—

SWE-Bench Pro - Public44.30

SWE-bench Multilingual—

免费商用

Claude Sonnet 4.5 Anthropic

开启思考

SWE-bench Verified—

LiveCodeBench71.00

SWE-Bench Pro - Public43.60

SWE-bench Multilingual—

闭源

Claude Sonnet 4 Anthropic

开启思考

SWE-bench Verified—

LiveCodeBench66.00

SWE-Bench Pro - Public42.70

SWE-bench Multilingual—

闭源

DeepSeek V3.2 DeepSeek-AI

开启思考

SWE-bench Verified70.20

LiveCodeBench83.30

SWE-Bench Pro - Public40.90

SWE-bench Multilingual—

免费商用

GLM-4.7 智谱AI

开启思考工具

SWE-bench Verified73.80

LiveCodeBench—

SWE-Bench Pro - Public40.60

SWE-bench Multilingual—

免费商用

排序：

已显示 50 / 224 个模型查看 SWE-Bench Pro - Public 基准测试完整页面