LMArena 评测赛道

LMArena Math Arena 数学推理能力排行榜

Name: LMArena Math Arena 数学推理能力排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

基于 LMArena Math Arena 用户匿名投票的最新AI大模型数学推理能力排行榜，涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

榜首模型

最高得分

模型数量

数据版本

暂无数据

数据来源: LM Arena

关于本排行榜

本排行榜展示了当前 AI 大模型在数学推理任务中的实力排名。数据来源于 LMArena 的 Math 子赛道，通过真实用户匿名盲测投票评估各模型在数学解题任务中的表现。

匿名盲测：用户提出数学题目后，由两个"隐藏身份"的模型分别作答，用户投票选出解题更优的一方，排除品牌偏见。

Elo 评分：采用 Bradley-Terry 模型计算 Elo 分数，分数越高说明该模型在数学场景中被用户更频繁地选择。

榜单历史快照月份:

排名	模型名称	得分	95% CI	投票数	机构	许可证

暂无数据

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

什么是 LMArena Math Arena？▼

LMArena Math Arena 是 LMArena 旗下专注于数学推理能力的匿名评测平台。用户提交真实数学问题（如代数、几何、竞赛数学等），系统将不同模型的解题过程并排展示（隐藏模型名称），由用户投票选出更好的解答，最终通过 Elo 算法汇总形成动态排行榜。

Math Arena 与 MATH-500、AIME 等静态基准有什么区别？▼

MATH-500、AIME、AMC 等静态基准使用固定题目集和自动评分，可重现性强但容易被针对性优化（"刷榜"）。Math Arena 来自真实用户的开放式数学问题，测试内容不固定，更能反映模型在实际数学场景中的自然表现，两者互为补充。

思考模型（Thinking Model）在数学 Arena 中表现更好吗？▼

整体而言，具备思维链（Chain-of-Thought）或扩展推理能力的模型在数学 Arena 中往往排名更高。Claude Opus 系列 Thinking 模式、GPT 高算力模式以及 DeepSeek 思考版本均在榜单前列，说明延长推理时间对数学问题的解答质量有显著提升。

国产大模型在数学能力方面表现如何？▼

DeepSeek、Qwen3 系列、GLM 等国产模型在 Math Arena 表现亮眼，已跻身全球前列。DeepSeek 以 MIT 协议开源，Qwen3-235B 等系列支持中文数学场景，是选择开源数学推理模型的重要参考。