DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页综合排行榜LMArena Coding Arena 代码能力排行榜

LMArena 评测赛道

文本生成代码数学图像编辑文字生成视频图生视频文生图

LMArena Coding Arena 代码能力排行榜

基于 LMArena Coding Arena 用户匿名投票的最新AI大模型代码编程能力排行榜,涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

榜首模型

Kimi K2.6

最高得分

1511.00

模型数量

360

数据版本

2026年06月05日

数据来源: LM Arena

关于本排行榜

本排行榜展示了当前 AI 大模型在代码编程任务中的实力排名。数据来源于 LMArena (前身为 LMSYS Chatbot Arena)的 Coding 子赛道,通过真实用户匿名盲测投票评估各模型在代码编程任务中的表现。

评测方法概要

匿名盲测:用户发出编程问题后,由两个"隐藏身份"的模型分别给出代码解答,用户投票选出更好的回答,排除品牌偏见。

Elo 评分:采用 Bradley-Terry 模型计算 Elo 分数,分数越高说明该模型的代码回答越容易被用户选择。

覆盖多种编程场景:包括代码生成、Bug 修复、算法实现、代码解释等高频真实编程场景。

DataLearner 在原始数据基础上提供中文解读与深度分析,并将排行榜模型关联至 DataLearner 模型库,方便您一键查看模型详情、API 定价、评测得分等完整信息。

来源:全部国产模型
榜单历史快照月份:

排名总表

排名模型名称得分95% CI投票数机构许可证
29Moonshot AIKimi K2.6Moonshot AI1511.00+/-95,269Moonshot AIModified MIT
30MiniMaxminimax-m3MiniMax1509.00+/-171,320MiniMaxProprietary
36Moonshot AIKimi K2.5 InstantMoonshot AI1505.00+/-141,800Moonshot AIModified MIT
37Moonshot AIKimi K2 ThinkingMoonshot AI1504.00+/-610,784Moonshot AIModified MIT
39DeepSeek-AIDeepSeek-V4-ProDeepSeek-AI1504.00+/-86,330DeepSeek-AIMIT
48DeepSeek-AIDeepSeek-V4-Pro (thinking)DeepSeek-AI1495.00+/-95,801DeepSeek-AIMIT
59Moonshot AIKimi K2 Thinking (thinking-turbo)Moonshot AI1487.00+/-614,542Moonshot AIModified MIT
65DeepSeek-AIDeepSeek-V4-FlashDeepSeek-AI1480.00+/-86,163DeepSeek-AIMIT
68MiniMaxAIMiniMax-M2.7MiniMaxAI1476.00+/-77,987MiniMaxAIModified MIT
69DeepSeek-AIDeepSeek V3.2 (thinking)DeepSeek-AI1476.00+/-78,375DeepSeek-AIMIT
70DeepSeek-AIDeepSeek-V4-Flash (thinking)DeepSeek-AI1476.00+/-86,073DeepSeek-AIMIT
71Alibabaqwen3-max-2025-09-23Alibaba1475.00+/-132,041AlibabaProprietary
72DeepSeek-AIDeepSeek V3.2-Exp (thinking)DeepSeek-AI1475.00+/-131,920DeepSeek-AIMIT
79DeepSeek-AIDeepSeek V3.2DeepSeek-AI1469.00+/-610,431DeepSeek-AIMIT
81Moonshot AIKimi K2 0905Moonshot AI1467.00+/-132,243Moonshot AIModified MIT
84DeepSeek-AIDeepSeek V3.2-ExpDeepSeek-AI1466.00+/-122,501DeepSeek-AIMIT
87DeepSeek-AIDeepSeek-R1-0528DeepSeek-AI1465.00+/-112,729DeepSeek-AIMIT
90DeepSeek-AIDeepSeek-V3.1 Terminus (thinking)DeepSeek-AI1463.00+/-24636DeepSeek-AIMIT
92Tencenthunyuan-hy3-previewTencent1461.00+/-141,834Tencenttencent-hunyuan-community
93Moonshot AIKimi K2Moonshot AI1460.00+/-85,243Moonshot AIModified MIT
102DeepSeek-AIDeepSeek-V3.1 (thinking)DeepSeek-AI1457.00+/-131,905DeepSeek-AIMIT
109StepFunAIStep 3.5 FlashStepFunAI1450.00+/-79,448StepFunAIApache 2.0
112DeepSeek-AIDeepSeek-V3.1DeepSeek-AI1447.00+/-122,625DeepSeek-AIMIT
113Alibabaqwen3-235b-a22b-no-thinkingAlibaba1446.00+/-86,977AlibabaApache 2.0
116DeepSeek-AIDeepSeek-R1DeepSeek-AI1445.00+/-122,317DeepSeek-AIMIT
117MiniMaxAIMiniMax M2.5MiniMaxAI1444.00+/-710,571MiniMaxAIModified MIT
119Alibabaqwen3-235b-a22b-thinking-2507Alibaba1442.00+/-151,612AlibabaApache 2.0
122MiniMaxAIM2.1MiniMaxAI1439.00+/-103,426MiniMaxAIMIT
123DeepSeek-AIDeepSeek-V3.1 TerminusDeepSeek-AI1439.00+/-21778DeepSeek-AIMIT
124Tencenthunyuan-vision-1.5-thinkingTencent1438.00+/-27437TencentProprietary
138StepFunAIStep 3.5 FlashStepFunAI1431.00+/-79,520StepFunAIProprietary
141DeepSeek-AIDeepSeek-V3-0324DeepSeek-AI1429.00+/-78,367DeepSeek-AIMIT
150MiniMaxminimax-m1MiniMax1416.00+/-86,486MiniMaxApache 2.0
158StepFunAIStep3StepFunAI1408.00+/-171,232StepFunAIApache 2.0
163Tencenthunyuan-turbos-20250226Tencent1400.00+/-31275TencentProprietary
169Tencenthunyuan-turbos-20250416Tencent1394.00+/-141,776TencentProprietary
177DeepSeek-AIDeepSeek-V3DeepSeek-AI1388.00+/-103,280DeepSeek-AIDeepSeek
183MiniMaxAIMiniMax M2MiniMaxAI1385.00+/-151,544MiniMaxAIApache 2.0
187Alibabaqwen-plus-0125Alibaba1380.00+/-18893AlibabaProprietary
189DeepSeekdeepseek-v2.5-1210DeepSeek1375.00+/-171,079DeepSeekDeepSeek
192Tencenthunyuan-turbo-0110Tencent1372.00+/-30299TencentProprietary
193StepFunstep-2-16k-exp-202412StepFun1372.00+/-20737StepFunProprietary
198DeepSeek-AIDeepSeek V2.5DeepSeek-AI1368.00+/-94,252DeepSeek-AIDeepSeek
201Tencenthunyuan-large-2025-02-10Tencent1367.00+/-25519TencentProprietary
211Alibabaqwen2.5-plus-1127Alibaba1357.00+/-141,553AlibabaProprietary
214Tencenthunyuan-large-visionTencent1356.00+/-19963TencentProprietary
216StepFunstep-1o-turbo-202506StepFun1354.00+/-151,505StepFunProprietary
219Alibabaqwen-max-0919Alibaba1353.00+/-112,756AlibabaQwen
220ZHglm-4-plusZhipu AI1352.00+/-94,449Zhipu AIProprietary
230DeepSeekdeepseek-coder-v2DeepSeek1342.00+/-122,671DeepSeekDeepSeek License
236Tencenthunyuan-standard-2025-02-10Tencent1332.00+/-24549TencentProprietary
238ZHglm-4-plus-0111Zhipu1331.00+/-18894ZhipuProprietary
259Tencenthunyuan-standard-256kTencent1301.00+/-25497TencentProprietary
285Alibabaqwen1.5-32b-chatAlibaba1261.00+/-113,930AlibabaQianwen LICENSE
305DeepSeek-AIDeepSeek LLM 67B ChatDeepSeek-AI1216.00+/-24649DeepSeek-AIDeepSeek License

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

常见问题 (FAQ)

01

什么是 LMArena Coding Arena?

LMArena Coding Arena 是 LMArena 旗下专注于代码能力的匿名评测平台。用户提交真实编程任务(如调试、代码生成、算法实现),系统将不同模型的输出并排展示(隐藏模型名称),由用户投票选出更好的答案,最终通过 Elo 算法汇总形成动态排行榜。

02

Coding Arena 与 SWE-bench、HumanEval 等静态基准有什么区别?

SWE-bench、HumanEval、MBPP 等静态基准使用固定测试集和自动化评分,可重现性强但容易被针对性优化("刷榜")。Coding Arena 来自真实用户的开放式需求,测试内容不固定,更能反映模型在实际编程场景中的表现,两者互为补充。

03

国产大模型在代码能力方面表现如何?

DeepSeek、Qwen 等国产模型在 Coding Arena 表现亮眼,已跻身全球前列。DeepSeek 以 MIT 协议开源,Qwen 系列支持中文编程场景,是开发者选择开源代码模型的重要参考。

04

如何用 AI 辅助日常编程工作?

常见场景包括:代码补全与生成、调试、代码审查、单元测试生成,以及跨语言翻译。