Arcada Labs Code Categories Arena 代码能力排行榜

Name: Arcada Labs Code Categories Arena 代码能力排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

基于 Arcada Labs Code Categories Arena 用户匿名投票的最新AI大模型代码能力排行榜，通过 Bradley-Terry 模型对 Website、UI Component、Game Dev、Data Visualization 等代码子类别进行综合评分与排名。

榜首模型

Kimi K3

最高得分

1419.00

模型数量

145

数据版本

2026年07月26日

数据来源: Arcada Labs

来源：全部国产模型

榜单历史快照月份:

排名总表

排名	模型名称	得分	95% CI	投票数	机构	许可证
	Kimi K3Moonshot AI	1419.00	+/-11.7	4,034	Moonshot AI	Open Source
12	Kimi K2.6Moonshot AI	1309.00	+/-4.8	25,390	Moonshot AI	Open Source
18	Kimi K2.7 CodeMoonshot AI	1289.00	+/-7.2	9,920	Moonshot AI	Open Source
20	MiniMax M3MiniMaxAI	1285.00	+/-6.1	13,990	MiniMaxAI	Open Source
25	DeepSeek-V4-ProDeepSeek-AI	1275.00	+/-5.4	18,497	DeepSeek-AI	Open Source
30	Kimi K2.5 (thinking)Moonshot AI	1268.00	+/-3.9	40,217	Moonshot AI	Open Source
32	MiniMax-M2.7MiniMaxAI	1264.00	+/-4.3	32,219	MiniMaxAI	Open Source
44	MiniMax M2.5MiniMaxAI	1238.00	+/-6.7	11,504	MiniMaxAI	Open Source
45	DeepSeek-V4-FlashDeepSeek-AI	1236.00	+/-4.6	26,642	DeepSeek-AI	Open Source
47	M2.1MiniMaxAI	1221.00	+/-5.1	20,805	MiniMaxAI	Open Source
57	DeepSeek-V3.1 (thinking)DeepSeek-AI	1206.00	+/-5.7	16,258	DeepSeek-AI	Open Source
58	Step 3.7 FlashStepFunAI	1203.00	+/-6	14,567	StepFunAI	Open Source
62	DeepSeek V3.2-ExpDeepSeek-AI	1201.00	+/-5.2	19,490	DeepSeek-AI	Open Source
72	DeepSeek V3.2DeepSeek-AI	1195.00	+/-4.4	29,147	DeepSeek-AI	Open Source
85	DeepSeek-R1-0528DeepSeek-AI	1169.00	+/-5.4	17,944	DeepSeek-AI	Open Source
88	MiniMax M2MiniMaxAI	1166.00	+/-6.9	10,828	MiniMaxAI	Open Source
96	DeepSeek-V3.1DeepSeek-AI	1143.00	+/-5.1	20,278	DeepSeek-AI	Open Source
98	DeepSeek-V3-0324DeepSeek-AI	1139.00	+/-5.2	19,257	DeepSeek-AI	Open Source
102	Kimi K2 0905Moonshot AI	1129.00	+/-17.9	1,504	Moonshot AI	Open Source
107	Kimi K2 Turbo PreviewMoonshot AI	1114.00	+/-15.2	2,094	Moonshot AI	Open Source
118	Kimi K2Moonshot AI	1064.00	+/-19.5	1,352	Moonshot AI	Open Source
120	Qwen3-235B-A22B-Thinking-2507Alibaba	1063.00	+/-9.1	6,169	Alibaba	Open Source

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

关于本榜单

本榜单数据来源于Design Arena，由 Y Combinator 支持的 Arcada Labs 开发，是专注于评测 AI 设计代码生成能力的众包匿名对战平台。

与 LMArena 评测通用文本和编程能力不同，Design Arena 的代码榜专门考察模型生成具有视觉呈现效果的前端代码的能力。平台将代码任务细分为 Website、UI 组件、游戏开发、数据可视化、SVG、Web App、移动端等多个子类别，每个子类别均有独立排行。

本页展示的是 Code Categories 综合榜，即将所有子类别的用户投票混合汇总后，统一用 Bradley-Terry 模型（类 Elo 算法）计算出的综合排名。每票等权，不对各子类别做加权处理，因此投票量较大的子类别（如 Website）对综合分数的影响更大。得分越高，代表模型在设计代码生成场景下的综合人类偏好越强。

常见问题 (FAQ)

什么是 Arcada Labs Code Categories Arena？

Arcada Labs Code Categories Arena 是专注于设计代码生成能力的匿名评测平台，覆盖 Website、UI 组件、游戏开发、数据可视化等多个代码生成子类别，并将投票汇总为综合榜单。

Arcada Code Arena 与 LMArena Coding Arena 有什么区别？

LMArena Coding Arena 主要评测通用编程能力，例如代码生成、调试和算法实现；Arcada Code Arena 专注于具有视觉呈现效果的前端设计代码，例如 HTML 页面、交互 UI、图表、SVG 和原型。

排名方法论是什么？

Arcada Labs 将各代码子类别的原始投票混合后运行 Bradley-Terry 模型。每票等权，不按子类别单独加权，因此投票量较大的子类别会对综合分数产生更大影响。

哪类模型在设计代码场景表现更好？

具备强视觉理解和前端代码生成能力的大模型通常表现更好。针对 UI 和代码生成优化的专项模型，在布局、交互和视觉细节任务上也可能有突出表现。