返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、SWE-bench Multilingual 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于 2026-07-01 07:32:52

截至 2026年7月，本页覆盖 SWE-bench Verified, LiveCodeBench, SWE-Bench Pro - Public, SWE-bench Multilingual 等评测基准，聚焦 大模型代码编程能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

代码能力参考综合排名

目前没有一个被普遍认可的代码能力综合排行榜。SWE-bench、HumanEval 等静态基准可以衡量特定技能，但容易被针对性优化（"刷榜"）。为此我们选取了两个切入角度不同的人类偏好参考榜单并列展示：LMArena Coding Arena 通过匿名盲测评测通用编程能力（调试、算法实现、代码生成等）；DesignArena Code Category 专注评测具有视觉呈现效果的前端代码生成（网站、UI 组件、游戏等），两者方法论相同但考察场景各异，结合参考效果最佳。

LMArena Coding Arena

基于真实开发者提交的通用编程任务（调试、算法、代码生成）进行匿名 A/B 盲测投票，Elo 算法动态排名。

数据更新于 2026-06-25

#模型Elo

1

Claude Fable 5Anthropic

1564

2

Opus 4.7 (thinking)Anthropic

1554

3

Claude Opus 4.6 (thinking)Anthropic

1551

4

Opus 4.7Anthropic

1550

5

Claude Opus 4.6Anthropic

1547

6

Claude Opus 4.8Anthropic

1538

7

Claude Opus 4.8 (thinking)Anthropic

1537

8

Claude Opus 4 (thinking-32k)Anthropic

1530

9

Claude Sonnet 4.6Anthropic

1527

10

阿

Qwen3.7-Max-Preview阿里巴巴

1526

来源：LMArena

DesignArena Code Category

基于 Arcada Labs 平台，对视觉前端代码任务（网站、UI 组件、游戏、数据可视化等）进行匿名投票，Bradley-Terry 模型动态排名。

数据更新于 2026-06-28

#模型Elo

1

智

GLM-5.2智谱AI

1363

2

Claude Fable 5Anthropic

1350

3

Claude Opus 4.6Anthropic

1343

4

Claude Opus 4.6 (thinking)Anthropic

1337

5

Opus 4.7 (thinking)Anthropic

1337

6

智

GLM 5.1智谱AI

1334

7

Kimi K2.6Moonshot AI

1328

8

Claude Sonnet 4.6Anthropic

1326

9

Opus 4.7Anthropic

1325

10

智

GLM-5-Turbo智谱AI

1322

来源：DesignArena

基准评测

SWE-bench Verified LiveCodeBench SWE-Bench Pro - Public SWE-bench Multilingual

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

	排名	模型					开源情况

排序：

暂无数据