DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页综合排行榜LMArena Math Arena 数学推理能力排行榜

LMArena 评测赛道

文本生成代码数学图像编辑文字生成视频图生视频文生图

LMArena Math Arena 数学推理能力排行榜

基于 LMArena Math Arena 用户匿名投票的最新AI大模型数学推理能力排行榜,涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

榜首模型

DeepSeek-V4-Pro (thinking)

最高得分

1483.00

模型数量

350

数据版本

2026年05月17日

数据来源: LM Arena

关于本排行榜

本排行榜展示了当前 AI 大模型在数学推理任务中的实力排名。数据来源于 LMArena 的 Math 子赛道,通过真实用户匿名盲测投票评估各模型在数学解题任务中的表现。

评测方法概要

匿名盲测:用户提出数学题目后,由两个"隐藏身份"的模型分别作答,用户投票选出解题更优的一方,排除品牌偏见。

Elo 评分:采用 Bradley-Terry 模型计算 Elo 分数,分数越高说明该模型在数学场景中被用户更频繁地选择。

来源:全部国产模型
榜单历史快照月份:

排名总表

排名模型名称得分95% CI投票数机构许可证
14DeepSeek-AIDeepSeek-V4-Pro (thinking)DeepSeek-AI1483.00+/-24603DeepSeek-AI

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

常见问题 (FAQ)

01

什么是 LMArena Math Arena?

LMArena Math Arena 是 LMArena 旗下专注于数学推理能力的匿名评测平台。用户提交真实数学问题(如代数、几何、竞赛数学等),系统将不同模型的解题过程并排展示(隐藏模型名称),由用户投票选出更好的解答,最终通过 Elo 算法汇总形成动态排行榜。

02

Math Arena 与 MATH-500、AIME 等静态基准有什么区别?

MATH-500、AIME、AMC 等静态基准使用固定题目集和自动评分,可重现性强但容易被针对性优化("刷榜")。Math Arena 来自真实用户的开放式数学问题,测试内容不固定,更能反映模型在实际数学场景中的自然表现,两者互为补充。

03

思考模型(Thinking Model)在数学 Arena 中表现更好吗?

整体而言,具备思维链(Chain-of-Thought)或扩展推理能力的模型在数学 Arena 中往往排名更高。Claude Opus 系列 Thinking 模式、GPT 高算力模式以及 DeepSeek 思考版本均在榜单前列,说明延长推理时间对数学问题的解答质量有显著提升。

04

国产大模型在数学能力方面表现如何?

DeepSeek、Qwen3 系列、GLM 等国产模型在 Math Arena 表现亮眼,已跻身全球前列。DeepSeek 以 MIT 协议开源,Qwen3-235B 等系列支持中文数学场景,是选择开源数学推理模型的重要参考。

覆盖多种数学场景:包括代数、几何、计算推理、竞赛数学等多元化的真实数学任务。

DataLearner 在原始数据基础上提供中文解读与深度分析,并将排行榜模型关联至 DataLearner 模型库,方便您一键查看模型详情、API 定价、评测得分等完整信息。

MIT
17AlibabaQwen3.5 Max PreviewAlibaba1476.00+/-171,103AlibabaProprietary
18Moonshot AIKimi K2 ThinkingMoonshot AI1475.00+/-131,970Moonshot AIModified MIT
20Moonshot AIKimi K2.6Moonshot AI1470.00+/-23602Moonshot AIModified MIT
38DeepSeek-AIDeepSeek-V4-FlashDeepSeek-AI1453.00+/-23611DeepSeek-AIMIT
40BytedanceDOLA Seed 2.0 ProBytedance1450.00+/-141,889BytedanceProprietary
47MoonshotKimi K2.5 InstantMoonshot1442.00+/-25515MoonshotModified MIT
48DeepSeek-AIDeepSeek-V4-ProDeepSeek-AI1442.00+/-22724DeepSeek-AIMIT
51DeepSeek-AIDeepSeek-V4-Flash (thinking)DeepSeek-AI1439.00+/-23630DeepSeek-AIMIT
54Moonshot AIKimi K2 Thinking (thinking-turbo)Moonshot AI1437.00+/-103,498Moonshot AIModified MIT
61Tencenthunyuan-hy3-previewTencent1433.00+/-28345Tencenttencent-hunyuan-community
63DeepSeek-AIDeepSeek V3.2DeepSeek-AI1430.00+/-112,911DeepSeek-AIMIT
65Alibabaqwen3-max-2025-09-23Alibaba1429.00+/-24586AlibabaProprietary
69DeepSeek-AIDeepSeek V3.2-Exp (thinking)DeepSeek-AI1428.00+/-27480DeepSeek-AIMIT
70DeepSeek-AIDeepSeek V3.2 (thinking)DeepSeek-AI1426.00+/-122,414DeepSeek-AIMIT
83DeepSeek-AIDeepSeek V3.2-ExpDeepSeek-AI1417.00+/-21773DeepSeek-AIMIT
84Moonshot AIKimi K2 0905Moonshot AI1416.00+/-21760Moonshot AIModified MIT
86DeepSeek-AIDeepSeek-V3.1DeepSeek-AI1415.00+/-18991DeepSeek-AIMIT
88DeepSeek-AIDeepSeek-V3.1 (thinking)DeepSeek-AI1414.00+/-22665DeepSeek-AIMIT
93DeepSeek-AIDeepSeek-R1DeepSeek-AI1411.00+/-141,606DeepSeek-AIMIT
96DeepSeek-AIDeepSeek-V3.1 Terminus (thinking)DeepSeek-AI1409.00+/-40200DeepSeek-AIMIT
104StepFunAIStep 3.5 FlashStepFunAI1404.00+/-131,848StepFunAIApache 2.0
105MiniMaxAIMiniMax-M2.7MiniMaxAI1404.00+/-181,038MiniMaxAIModified MIT
106StepFunAIStep 3.5 FlashStepFunAI1403.00+/-151,508StepFunAIProprietary
109MiniMaxAIMiniMax M2.5MiniMaxAI1402.00+/-141,847MiniMaxAIModified MIT
117Alibabaqwen3-235b-a22b-thinking-2507Alibaba1399.00+/-24490AlibabaApache 2.0
119DeepSeek-AIDeepSeek-R1-0528DeepSeek-AI1397.00+/-20869DeepSeek-AIMIT
121DeepSeek-AIDeepSeek-V3.1 TerminusDeepSeek-AI1396.00+/-39219DeepSeek-AIMIT
122Alibabaqwen3-235b-a22b-no-thinkingAlibaba1395.00+/-122,392AlibabaApache 2.0
124MiniMaxAIM2.1MiniMaxAI1393.00+/-181,010MiniMaxAIMIT
131Moonshot AIKimi K2Moonshot AI1388.00+/-141,698Moonshot AIModified MIT
147MiniMaxminimax-m1MiniMax1371.00+/-131,797MiniMaxApache 2.0
148DeepSeek-AIDeepSeek-V3-0324DeepSeek-AI1370.00+/-103,192DeepSeek-AIMIT
155StepFunAIStep3StepFunAI1364.00+/-31352StepFunAIApache 2.0
159MiniMaxAIMiniMax M2MiniMaxAI1359.00+/-33316MiniMaxAIApache 2.0
168Tencenthunyuan-turbos-20250416Tencent1348.00+/-20845TencentProprietary
177Alibabaqwen-plus-0125Alibaba1324.00+/-19732AlibabaProprietary
184StepFunstep-2-16k-exp-202412StepFun1313.00+/-20642StepFunProprietary
188DeepSeek-AIDeepSeek-V3DeepSeek-AI1311.00+/-112,721DeepSeek-AIDeepSeek
195Alibabaqwen2.5-plus-1127Alibaba1305.00+/-141,404AlibabaProprietary
198Tencenthunyuan-turbos-20250226Tencent1301.00+/-31238TencentProprietary
199StepFunstep-1o-turbo-202506StepFun1300.00+/-24564StepFunProprietary
201ZHglm-4-plus-0111Zhipu1297.00+/-19721ZhipuProprietary
208Tencenthunyuan-large-2025-02-10Tencent1293.00+/-24497TencentProprietary
209DeepSeekdeepseek-v2.5-1210DeepSeek1293.00+/-171,031DeepSeekDeepSeek
210Alibabaqwen-max-0919Alibaba1291.00+/-122,249AlibabaQwen
211Tencenthunyuan-standard-2025-02-10Tencent1290.00+/-24499TencentProprietary
214DeepSeek-AIDeepSeek V2.5DeepSeek-AI1288.00+/-103,649DeepSeek-AIDeepSeek
215ZHglm-4-plusZhipu AI1287.00+/-103,599Zhipu AIProprietary
220Tencenthunyuan-large-visionTencent1280.00+/-30351TencentProprietary
221Tencenthunyuan-turbo-0110Tencent1279.00+/-31243TencentProprietary
230DeepSeekdeepseek-coder-v2DeepSeek1271.00+/-131,858DeepSeekDeepSeek License
245Tencenthunyuan-standard-256kTencent1250.00+/-29361TencentProprietary
275Alibabaqwen1.5-32b-chatAlibaba1200.00+/-122,649AlibabaQianwen LICENSE
302DeepSeek-AIDeepSeek LLM 67B ChatDeepSeek-AI1155.00+/-23576DeepSeek-AIDeepSeek License