Arcada Labs Code Categories Arena 代码能力排行榜
基于 Arcada Labs Code Categories Arena 用户匿名投票的最新AI大模型代码能力排行榜,通过 Bradley-Terry 模型对 Website、UI Component、Game Dev、Data Visualization 等代码子类别进行综合评分与排名。
榜首模型
Kimi K2.6
最高得分
1332.00
模型数量
129
数据版本
2026年06月13日
数据来源: Arcada Labs
排名总表
| 排名 | 模型名称 | 得分 | 95% CI | 投票数 | 机构 | 许可证 |
|---|---|---|---|---|---|---|
| 6 | Kimi K2.6Moonshot AI | 1332.00 | +/-5.4 | 19,693 | Moonshot AI | Open Source |
| 11 | MiniMax M3MiniMax | 1315.00 | +/-9.2 | 5,954 | MiniMax | Open Source |
| 17 | DeepSeek-V4-ProDeepSeek-AI | 1297.00 | +/-6.6 | 12,237 | DeepSeek-AI | Open Source |
| 21 | Kimi K2.5 (thinking)Moonshot AI | 1288.00 | +/-4.2 | 35,262 | Moonshot AI | Open Source |
| 23 | 1282.00 | +/-4.7 | 26,278 | MiniMaxAI | Open Source | |
| 30 | DeepSeek-V4-FlashDeepSeek-AI | 1264.00 | +/-5.3 | 19,662 | DeepSeek-AI | Open Source |
| 32 | 1258.00 | +/-6.7 | 11,504 | MiniMaxAI | Open Source | |
| 35 | 1242.00 | +/-5.1 | 20,803 | MiniMaxAI | Open Source | |
| 44 | DeepSeek-V3.1 (thinking)DeepSeek-AI | 1227.00 | +/-5.7 | 16,258 | DeepSeek-AI | Open Source |
| 47 | DeepSeek V3.2-ExpDeepSeek-AI | 1222.00 | +/-5.2 | 19,490 | DeepSeek-AI | Open Source |
| 52 | DeepSeek V3.2DeepSeek-AI | 1218.00 | +/-4.8 | 24,314 | DeepSeek-AI | Open Source |
| 53 | Step 3.7 FlashStepFun | 1218.00 | +/-8.4 | 7,214 | StepFun | Open Source |
| 71 | DeepSeek-R1-0528DeepSeek-AI | 1190.00 | +/-5.4 | 17,944 | DeepSeek-AI | Open Source |
| 74 | 1186.00 | +/-6.8 | 10,828 | MiniMaxAI | Open Source | |
| 81 | DeepSeek-V3.1DeepSeek-AI | 1163.00 | +/-5.1 | 20,278 | DeepSeek-AI | Open Source |
| 83 | DeepSeek-V3-0324DeepSeek-AI | 1160.00 | +/-5.2 | 19,257 | DeepSeek-AI | Open Source |
| 87 | Kimi K2 0905Moonshot AI | 1149.00 | +/-17.9 | 1,504 | Moonshot AI | Open Source |
| 92 | Kimi K2 Turbo PreviewMoonshot AI | 1135.00 | +/-15.2 | 2,094 | Moonshot AI | Open Source |
| 103 | Kimi K2Moonshot AI | 1085.00 | +/-19.4 | 1,352 | Moonshot AI | Open Source |
| 105 | Qwen3-235B-A22B-Thinking-2507Alibaba | 1084.00 | +/-9.1 | 6,169 | Alibaba | Open Source |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。
关于本榜单
本榜单数据来源于Design Arena,由 Y Combinator 支持的 Arcada Labs 开发,是专注于评测 AI 设计代码生成能力的众包匿名对战平台。
与 LMArena 评测通用文本和编程能力不同,Design Arena 的代码榜专门考察模型生成具有视觉呈现效果的前端代码的能力。平台将代码任务细分为 Website、UI 组件、游戏开发、数据可视化、SVG、Web App、移动端等多个子类别,每个子类别均有独立排行。
本页展示的是 Code Categories 综合榜,即将所有子类别的用户投票混合汇总后,统一用 Bradley-Terry 模型(类 Elo 算法)计算出的综合排名。每票等权,不对各子类别做加权处理,因此投票量较大的子类别(如 Website)对综合分数的影响更大。得分越高,代表模型在设计代码生成场景下的综合人类偏好越强。
常见问题 (FAQ)
什么是 Arcada Labs Code Categories Arena?
Arcada Labs Code Categories Arena 是专注于设计代码生成能力的匿名评测平台,覆盖 Website、UI 组件、游戏开发、数据可视化等多个代码生成子类别,并将投票汇总为综合榜单。
Arcada Code Arena 与 LMArena Coding Arena 有什么区别?
LMArena Coding Arena 主要评测通用编程能力,例如代码生成、调试和算法实现;Arcada Code Arena 专注于具有视觉呈现效果的前端设计代码,例如 HTML 页面、交互 UI、图表、SVG 和原型。
排名方法论是什么?
Arcada Labs 将各代码子类别的原始投票混合后运行 Bradley-Terry 模型。每票等权,不按子类别单独加权,因此投票量较大的子类别会对综合分数产生更大影响。
哪类模型在设计代码场景表现更好?
具备强视觉理解和前端代码生成能力的大模型通常表现更好。针对 UI 和代码生成优化的专项模型,在布局、交互和视觉细节任务上也可能有突出表现。




