DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 GSM8K、MATH、AIME 2025 等多个权威数学基准数据集,对包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek-R1 等模型进行评测。

数据更新于: 2025-07-20 20:56:42

评测切换

在这里切换评测,图表和表格会同步更新

AIME2025AIME 2024MATH-500GSM8K

筛选条件

已筛选
全部3B及以下7B13B34B65B100B及以上
全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI

大模型性能评测结果

数据来源:DataLearnerAI

GSM8K
排名模型AIME2025AIME 2024MATH-500GSM8K参数(亿)开源情况
1GPT OSS 20B98.7096.000.000.00210B免费商用
2Qwen3-235B-A22B-Thinking92.300.000.000.00305B免费商用
3GLM-4.7-Flash91.600.000.000.00310B免费商用
4Qwen3-32B72.9081.4097.200.00320B免费商用
5Magistral-Small-250662.7670.680.000.00240B免费商用
6Qwen3-30B-A3B-250761.300.000.000.00305B免费商用
7Qwen3-30B-A3B21.600.000.000.00305B免费商用
8Qwen2.5-32B0.000.000.0095.90320B免费商用
9QwQ-32B0.0079.5091.000.00325B免费商用
10QwQ-32B-Preview0.0050.0090.600.00320B免费商用
11Gemma 3 - 27B (IT)0.0025.300.000.00270B免费商用
1
GPT OSS 20B
210B
AIME202598.70
AIME 202496.00
MATH-5000.00
GSM8K0.00
免费商用
2
Qwen3-235B-A22B-Thinking
305B
AIME202592.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
3
GLM-4.7-Flash
310B
AIME202591.60
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
4
Qwen3-32B
320B
AIME202572.90
AIME 202481.40
MATH-50097.20
GSM8K0.00
免费商用
5
Magistral-Small-2506
240B
AIME202562.76
AIME 202470.68
MATH-5000.00
GSM8K0.00
免费商用
6
Qwen3-30B-A3B-2507
305B
AIME202561.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
7
Qwen3-30B-A3B
305B
AIME202521.60
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
8
Qwen2.5-32B
320B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K95.90
免费商用
9
QwQ-32B
325B
AIME20250.00
AIME 202479.50
MATH-50091.00
GSM8K0.00
免费商用
10
QwQ-32B-Preview
320B
AIME20250.00
AIME 202450.00
MATH-50090.60
GSM8K0.00
免费商用
11
Gemma 3 - 27B (IT)
270B
AIME20250.00
AIME 202425.30
MATH-5000.00
GSM8K0.00
免费商用