LMArena 评测赛道

LMArena Math Arena 数学推理能力排行榜

Name: LMArena Math Arena 数学推理能力排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

基于 LMArena Math Arena 用户匿名投票的最新AI大模型数学推理能力排行榜，涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

榜首模型

Kimi K2.6

最高得分

1480.00

模型数量

367

数据版本

2026年07月21日

数据来源: LM Arena

关于本排行榜

本排行榜展示了当前 AI 大模型在数学推理任务中的实力排名。数据来源于 LMArena 的 Math 子赛道，通过真实用户匿名盲测投票评估各模型在数学解题任务中的表现。

评测方法概要

匿名盲测：用户提出数学题目后，由两个"隐藏身份"的模型分别作答，用户投票选出解题更优的一方，排除品牌偏见。

Elo 评分：采用 Bradley-Terry 模型计算 Elo 分数，分数越高说明该模型在数学场景中被用户更频繁地选择。

覆盖多种数学场景：包括代数、几何、计算推理、竞赛数学等多元化的真实数学任务。

DataLearner 在原始数据基础上提供中文解读与深度分析，并将排行榜模型关联至 DataLearner 模型库，方便您一键查看模型详情、API 定价、评测得分等完整信息。

来源：全部国产模型

榜单历史快照月份:

排名总表

排名	模型名称	得分	95% CI	投票数	机构	许可证
18	Kimi K2.6Moonshot AI	1480.00	+/-14	1,936	Moonshot AI	Modified MIT
29	Kimi K2 ThinkingMoonshot AI	1472.00	+/-10	3,514	Moonshot AI	Modified MIT
35	DeepSeek-V4-Pro (thinking)DeepSeek-AI	1467.00	+/-13	2,106	DeepSeek-AI	MIT
56	DeepSeek-V4-ProDeepSeek-AI	1445.00	+/-12	2,440	DeepSeek-AI	MIT
60	MiniMax M3MiniMaxAI	1443.00	+/-16	1,356	MiniMaxAI	MiniMax Community License
61	Kimi K2.5 InstantMoonshot AI	1441.00	+/-25	513	Moonshot AI	Modified MIT
64	DeepSeek-V4-Flash (thinking)DeepSeek-AI	1440.00	+/-13	2,239	DeepSeek-AI	MIT
68	Kimi K2 Thinking (thinking-turbo)Moonshot AI	1438.00	+/-10	3,779	Moonshot AI	Modified MIT
77	hunyuan-hy3-previewTencent	1429.00	+/-28	406	Tencent	tencent-hunyuan-community
78	qwen3-max-2025-09-23Alibaba	1429.00	+/-24	585	Alibaba	Proprietary
80	DeepSeek V3.2DeepSeek-AI	1429.00	+/-11	3,003	DeepSeek-AI	MIT
84	DeepSeek V3.2-Exp (thinking)DeepSeek-AI	1428.00	+/-26	481	DeepSeek-AI	MIT
89	DeepSeek-V4-FlashDeepSeek-AI	1426.00	+/-13	2,313	DeepSeek-AI	MIT
90	DeepSeek V3.2-Exp (thinking)DeepSeek-AI	1425.00	+/-12	2,503	DeepSeek-AI	MIT
92	MiniMax-M2.7MiniMaxAI	1424.00	+/-12	2,640	MiniMaxAI	Modified MIT
101	DeepSeek V3.2-ExpDeepSeek-AI	1417.00	+/-21	775	DeepSeek-AI	MIT
102	Kimi K2 0905Moonshot AI	1416.00	+/-21	759	Moonshot AI	Modified MIT
105	DeepSeek-V3.1DeepSeek-AI	1415.00	+/-18	991	DeepSeek-AI	MIT
106	DeepSeek-V3.1 (thinking)DeepSeek-AI	1414.00	+/-22	664	DeepSeek-AI	MIT
110	DeepSeek-R1DeepSeek-AI	1412.00	+/-14	1,606	DeepSeek-AI	MIT
117	Step 3.5 FlashStepFunAI	1408.00	+/-11	3,166	StepFunAI	Apache 2.0
118	DeepSeek-V3.1 Terminus (thinking)DeepSeek-AI	1406.00	+/-41	198	DeepSeek-AI	MIT
125	Step 3.5 FlashStepFunAI	1403.00	+/-11	3,113	StepFunAI	Proprietary
135	qwen3-235b-a22b-thinking-2507Alibaba	1398.00	+/-24	488	Alibaba	Apache 2.0
137	MiniMax M2.5MiniMaxAI	1396.00	+/-12	2,436	MiniMaxAI	Modified MIT
138	DeepSeek-R1-0528DeepSeek-AI	1396.00	+/-20	869	DeepSeek-AI	MIT
139	DeepSeek-V3.1 TerminusDeepSeek-AI	1395.00	+/-39	219	DeepSeek-AI	MIT
140	qwen3-235b-a22b-no-thinkingAlibaba	1394.00	+/-12	2,389	Alibaba	Apache 2.0
143	M2.1MiniMaxAI	1392.00	+/-18	1,006	MiniMaxAI	MIT
147	Kimi K2Moonshot AI	1388.00	+/-14	1,692	Moonshot AI	Modified MIT
164	minimax-m1MiniMax	1371.00	+/-13	1,793	MiniMax	Apache 2.0
165	DeepSeek-V3-0324DeepSeek-AI	1370.00	+/-10	3,189	DeepSeek-AI	MIT
172	Step3StepFunAI	1363.00	+/-31	352	StepFunAI	Apache 2.0
178	MiniMax M2MiniMaxAI	1355.00	+/-33	319	MiniMaxAI	Apache 2.0
185	hunyuan-turbos-20250416Tencent	1347.00	+/-20	845	Tencent	Proprietary
194	qwen-plus-0125Alibaba	1323.00	+/-19	732	Alibaba	Proprietary
201	step-2-16k-exp-202412StepFun	1313.00	+/-20	642	StepFun	Proprietary
205	DeepSeek-V3DeepSeek-AI	1311.00	+/-11	2,721	DeepSeek-AI	DeepSeek
213	qwen2.5-plus-1127Alibaba	1304.00	+/-14	1,404	Alibaba	Proprietary
215	hunyuan-turbos-20250226Tencent	1301.00	+/-31	238	Tencent	Proprietary
218	step-1o-turbo-202506StepFun	1298.00	+/-24	564	StepFun	Proprietary
219	glm-4-plus-0111Zhipu	1298.00	+/-19	721	Zhipu	Proprietary
225	hunyuan-large-2025-02-10Tencent	1294.00	+/-24	497	Tencent	Proprietary
226	deepseek-v2.5-1210DeepSeek	1292.00	+/-17	1,031	DeepSeek	DeepSeek
227	qwen-max-0919Alibaba	1291.00	+/-12	2,249	Alibaba	Qwen
228	hunyuan-standard-2025-02-10Tencent	1290.00	+/-24	499	Tencent	Proprietary
231	DeepSeek V2.5DeepSeek-AI	1288.00	+/-10	3,649	DeepSeek-AI	DeepSeek
232	glm-4-plusZhipu AI	1287.00	+/-10	3,599	Zhipu AI	Proprietary
237	hunyuan-large-visionTencent	1281.00	+/-30	350	Tencent	Proprietary
238	hunyuan-turbo-0110Tencent	1279.00	+/-31	243	Tencent	Proprietary
247	deepseek-coder-v2DeepSeek	1272.00	+/-14	1,858	DeepSeek	DeepSeek License
262	hunyuan-standard-256kTencent	1250.00	+/-29	361	Tencent	Proprietary
292	qwen1.5-32b-chatAlibaba	1201.00	+/-12	2,649	Alibaba	Qianwen LICENSE
319	DeepSeek LLM 67B ChatDeepSeek-AI	1156.00	+/-23	576	DeepSeek-AI	DeepSeek License

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

常见问题 (FAQ)

什么是 LMArena Math Arena？

LMArena Math Arena 是 LMArena 旗下专注于数学推理能力的匿名评测平台。用户提交真实数学问题（如代数、几何、竞赛数学等），系统将不同模型的解题过程并排展示（隐藏模型名称），由用户投票选出更好的解答，最终通过 Elo 算法汇总形成动态排行榜。

Math Arena 与 MATH-500、AIME 等静态基准有什么区别？

MATH-500、AIME、AMC 等静态基准使用固定题目集和自动评分，可重现性强但容易被针对性优化（"刷榜"）。Math Arena 来自真实用户的开放式数学问题，测试内容不固定，更能反映模型在实际数学场景中的自然表现，两者互为补充。

思考模型（Thinking Model）在数学 Arena 中表现更好吗？

整体而言，具备思维链（Chain-of-Thought）或扩展推理能力的模型在数学 Arena 中往往排名更高。Claude Opus 系列 Thinking 模式、GPT 高算力模式以及 DeepSeek 思考版本均在榜单前列，说明延长推理时间对数学问题的解答质量有显著提升。

国产大模型在数学能力方面表现如何？

DeepSeek、Qwen3 系列、GLM 等国产模型在 Math Arena 表现亮眼，已跻身全球前列。DeepSeek 以 MIT 协议开源，Qwen3-235B 等系列支持中文数学场景，是选择开源数学推理模型的重要参考。