大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-07-01 07:32:52

截至 2026年7月，本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准，聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能，但容易被针对性优化（"刷榜"）。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示：LMArena Coding Arena 通过匿名盲测评测通用编程能力（调试、算法实现、代码生成等）；DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成（网站、UI 组件、游戏等），两者方法论相同但考察场景各异，结合参考效果最佳。

LMArena Coding Arena

完整排名

基于真实开发者提交的通用编程任务（调试、算法、代码生成）进行匿名 A/B 盲测投票，Elo 算法动态排名。

数据更新于 2026-06-25

#模型Elo

Claude Fable 5Anthropic

1564

Opus 4.7 (thinking)Anthropic

1554

Claude Opus 4.6 (thinking)Anthropic

1551

Opus 4.7Anthropic

1550

Claude Opus 4.6Anthropic

1547

Claude Opus 4.8Anthropic

1538

Claude Opus 4.8 (thinking)Anthropic

1537

Claude Opus 4 (thinking-32k)Anthropic

1530

Claude Sonnet 4.6Anthropic

1527

阿

Qwen3.7-Max-Preview阿里巴巴

1526

来源：LMArena

DesignArena Code Category

完整排名

基于 Arcada Labs 平台，对视觉前端代码任务（网站、UI 组件、游戏、数据可视化等）进行匿名投票，Bradley-Terry 模型动态排名。

数据更新于 2026-06-28

#模型Elo

智

GLM-5.2智谱AI

1363

Claude Fable 5Anthropic

1350

Claude Opus 4.6Anthropic

1343

Claude Opus 4.6 (thinking)Anthropic

1337

Opus 4.7 (thinking)Anthropic

1337

智

GLM 5.1智谱AI

1334

Kimi K2.6Moonshot AI

1328

Claude Sonnet 4.6Anthropic

1326

Opus 4.7Anthropic

1325

智

GLM-5-Turbo智谱AI

1322

来源：DesignArena

基准评测

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 LiveCodeBench 排序

当前 SOTA

DeepSeek-V4-Pro

DeepSeek-AI

93.50LiveCodeBench

查看详情

最佳开源

DeepSeek-V4-Pro

DeepSeek-AI

93.50LiveCodeBench

查看详情

最佳国产

DeepSeek-V4-Pro

DeepSeek-AI

93.50LiveCodeBench

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	DeepSeek-V4-Pro DeepSeek-AI	80.60	93.50	55.40	76.20	免费商用	详情
	Qwen3.7-Max-Preview 阿里巴巴	80.40	91.60	60.60	78.30	闭源	详情
	DeepSeek-V4-Flash DeepSeek-AI	79.00	91.60	52.60	73.30	免费商用	详情
4	Kimi K2.6 Moonshot AI	80.20	89.60	58.60	76.70	免费商用	详情
5	Qwen3.6-Max-Preview 阿里巴巴	78.80	87.10	57.30	73.80	闭源	详情
6	Step 3.5 Flash StepFunAI	74.40	86.40	—	—	免费商用	详情
7	Qwen3-Max-Thinking 阿里巴巴	75.30	85.90	—	—	闭源	详情
8	Kimi K2.5 Moonshot AI	76.80	85.00	50.70	73.00	免费商用	详情
9	GLM-4.7 智谱AI	73.80	84.90	40.60	—	免费商用	详情
10	GLM-4.6 智谱AI	68.00	84.50	—	—	免费商用	详情
11	DeepSeek V3.2 DeepSeek-AI	73.10	83.30	40.90	—	免费商用	详情
12	Kimi K2 Thinking Moonshot AI	71.30	83.10	—	—	免费商用	详情
13	MiniMax M2 MiniMaxAI	69.40	83.00	—	—	免费商用	详情
14	DeepSeek-V3.1 Terminus DeepSeek-AI	68.40	80.00	—	—	免费商用	详情
15	DeepSeek-V3.1 DeepSeek-AI	66.00	74.80	—	—	免费商用	详情
16	DeepSeek V3.2-Exp DeepSeek-AI	67.80	74.10	—	—	免费商用	详情
17	Qwen3-235B-A22B-Thinking-2507 阿里巴巴	—	74.10	—	—	免费商用	详情
18	Kimi-k1.6-IOI-high Moonshot AI	—	73.80	—	—	闭源	详情
19	DeepSeek-R1-0528 DeepSeek-AI	57.60	73.30	—	—	免费商用	详情
20	GLM-4.5 智谱AI	64.20	72.90	—	—	免费商用	详情
21	GLM-4.5-Air 智谱AI	57.60	70.70	—	—	免费商用	详情
22	Qwen3-235B-A22B 阿里巴巴	34.40	70.70	—	—	免费商用	详情
23	Step3 StepFunAI	—	67.10	—	—	免费商用	详情
24	DeepSeek-R1 DeepSeek-AI	49.20	65.90	—	—	免费商用	详情
25	Kimi-k1.6-IOI Moonshot AI	—	65.90	—	—	闭源	详情
26	QwQ-Max-Preview 阿里巴巴	—	65.60	—	—	免费商用	详情
27	MiniMax-M1-80k MiniMaxAI	56.00	65.00	—	—	免费商用	详情
28	MiniMax-M1-40k MiniMaxAI	55.60	62.30	—	—	免费商用	详情
29	Kimi K2 Moonshot AI	51.80	53.70	—	—	免费商用	详情
30	Qwen3-235B-A22B-2507 阿里巴巴	—	51.80	—	—	免费商用	详情
31	DeepSeek-V3-0324 DeepSeek-AI	38.80	49.20	—	—	免费商用	详情
32	ERNIE-4.5-VL-424B-A47B-Base 百度	—	38.80	—	—	免费商用	详情
33	ERNIE-4.5-300B-A47B 百度	—	38.80	—	—	免费商用	详情
34	DeepSeek-V3 DeepSeek-AI	—	34.60	—	—	免费商用	详情
35	Hunyuan-TurboS 腾讯AI实验室	—	32.00	—	—	闭源	详情
36	MiniMax M2.5 MiniMaxAI	80.20	—	55.40	—	免费商用	详情
37	GLM-5 智谱AI	77.80	—	—	—	免费商用	详情
38	M2.1 MiniMaxAI	74.80	—	32.60	—	免费商用	详情
39	Kimi K2 0905 Moonshot AI	69.20	—	27.67	—	免费商用	详情
40	Qwen3-Coder-480B-A35B 阿里巴巴	67.00	—	—	—	免费商用	详情
41	MiniMax-M2.7 MiniMaxAI	—	—	56.20	—	不可商用	详情
42	GLM-5.2 智谱AI	—	—	62.10	—	免费商用	详情
43	MiniMax M3 MiniMaxAI	—	—	59.00	—	不可商用	详情

DeepSeek-V4-Pro DeepSeek-AI

SWE-bench Verified80.60

LiveCodeBench93.50

SWE-Bench Pro - Public55.40

SWE-bench Multilingual76.20

免费商用

Qwen3.7-Max-Preview 阿里巴巴

SWE-bench Verified80.40

LiveCodeBench91.60

SWE-Bench Pro - Public60.60

SWE-bench Multilingual78.30

闭源

DeepSeek-V4-Flash DeepSeek-AI

SWE-bench Verified79.00

LiveCodeBench91.60

SWE-Bench Pro - Public52.60

SWE-bench Multilingual73.30

免费商用

Kimi K2.6 Moonshot AI

SWE-bench Verified80.20

LiveCodeBench89.60

SWE-Bench Pro - Public58.60

SWE-bench Multilingual76.70

免费商用

Qwen3.6-Max-Preview 阿里巴巴

SWE-bench Verified78.80

LiveCodeBench87.10

SWE-Bench Pro - Public57.30

SWE-bench Multilingual73.80

闭源

Step 3.5 Flash StepFunAI

SWE-bench Verified74.40

LiveCodeBench86.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Qwen3-Max-Thinking 阿里巴巴

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

Kimi K2.5 Moonshot AI

SWE-bench Verified76.80

LiveCodeBench85.00

SWE-Bench Pro - Public50.70

SWE-bench Multilingual73.00

免费商用

GLM-4.7 智谱AI

SWE-bench Verified73.80

LiveCodeBench84.90

SWE-Bench Pro - Public40.60

SWE-bench Multilingual—

免费商用

GLM-4.6 智谱AI

SWE-bench Verified68.00

LiveCodeBench84.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek V3.2 DeepSeek-AI

SWE-bench Verified73.10

LiveCodeBench83.30

SWE-Bench Pro - Public40.90

SWE-bench Multilingual—

免费商用

Kimi K2 Thinking Moonshot AI

SWE-bench Verified71.30

LiveCodeBench83.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

MiniMax M2 MiniMaxAI

SWE-bench Verified69.40

LiveCodeBench83.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek-V3.1 Terminus DeepSeek-AI

SWE-bench Verified68.40

LiveCodeBench80.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek-V3.1 DeepSeek-AI

SWE-bench Verified66.00

LiveCodeBench74.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek V3.2-Exp DeepSeek-AI

SWE-bench Verified67.80

LiveCodeBench74.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Qwen3-235B-A22B-Thinking-2507 阿里巴巴

SWE-bench Verified—

LiveCodeBench74.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Kimi-k1.6-IOI-high Moonshot AI

SWE-bench Verified—

LiveCodeBench73.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

DeepSeek-R1-0528 DeepSeek-AI

SWE-bench Verified57.60

LiveCodeBench73.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GLM-4.5 智谱AI

SWE-bench Verified64.20

LiveCodeBench72.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

GLM-4.5-Air 智谱AI

SWE-bench Verified57.60

LiveCodeBench70.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Qwen3-235B-A22B 阿里巴巴

SWE-bench Verified34.40

LiveCodeBench70.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Step3 StepFunAI

SWE-bench Verified—

LiveCodeBench67.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek-R1 DeepSeek-AI

SWE-bench Verified49.20

LiveCodeBench65.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Kimi-k1.6-IOI Moonshot AI

SWE-bench Verified—

LiveCodeBench65.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

QwQ-Max-Preview 阿里巴巴

SWE-bench Verified—

LiveCodeBench65.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

MiniMax-M1-80k MiniMaxAI

SWE-bench Verified56.00

LiveCodeBench65.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

MiniMax-M1-40k MiniMaxAI

SWE-bench Verified55.60

LiveCodeBench62.30

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Kimi K2 Moonshot AI

SWE-bench Verified51.80

LiveCodeBench53.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Qwen3-235B-A22B-2507 阿里巴巴

SWE-bench Verified—

LiveCodeBench51.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek-V3-0324 DeepSeek-AI

SWE-bench Verified38.80

LiveCodeBench49.20

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

ERNIE-4.5-VL-424B-A47B-Base 百度

SWE-bench Verified—

LiveCodeBench38.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

ERNIE-4.5-300B-A47B 百度

SWE-bench Verified—

LiveCodeBench38.80

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

DeepSeek-V3 DeepSeek-AI

SWE-bench Verified—

LiveCodeBench34.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Hunyuan-TurboS 腾讯AI实验室

SWE-bench Verified—

LiveCodeBench32.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

闭源

MiniMax M2.5 MiniMaxAI

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual—

免费商用

GLM-5 智谱AI

SWE-bench Verified77.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

M2.1 MiniMaxAI

SWE-bench Verified74.80

LiveCodeBench—

SWE-Bench Pro - Public32.60

SWE-bench Multilingual—

免费商用

Kimi K2 0905 Moonshot AI

SWE-bench Verified69.20

LiveCodeBench—

SWE-Bench Pro - Public27.67

SWE-bench Multilingual—

免费商用

Qwen3-Coder-480B-A35B 阿里巴巴

SWE-bench Verified67.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

MiniMax-M2.7 MiniMaxAI

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public56.20

SWE-bench Multilingual—

不可商用

GLM-5.2 智谱AI

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public62.10

SWE-bench Multilingual—

免费商用

MiniMax M3 MiniMaxAI

SWE-bench Verified—

LiveCodeBench—

SWE-Bench Pro - Public59.00

SWE-bench Multilingual—

不可商用

排序：