DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 GSM8K、MATH、AIME 2025 等多个权威数学基准数据集,对包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek-R1 等模型进行评测。

数据更新于: 2025-07-20 20:56:42

评测切换

在这里切换评测,图表和表格会同步更新

AIME2025AIME 2024MATH-500GSM8K

筛选条件

已筛选
全部3B及以下7B13B34B65B100B及以上
全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI

大模型性能评测结果

数据来源:DataLearnerAI

AIME 2024
排名模型AIME2025AIME 2024MATH-500GSM8K参数(亿)开源情况
1Qwen3-4B-Thinking-250781.300.000.000.0040B免费商用
2Hunyuan-7B75.3081.1093.700.0070B免费商用
3Qwen3-8B67.3079.4097.400.0080B免费商用
4Qwen3-4B-250747.400.000.000.0040B免费商用
5Pangu Embedded0.0081.9092.4095.9870B免费商用
6Qwen2.5-7B0.000.000.0085.4070B免费商用
7Llama3.1-8B-Instruct0.000.000.0082.4080B免费商用
8Gemma 2 - 9B0.000.000.0070.7090B免费商用
9Llama3.1-8B0.000.000.0055.3080B免费商用
10Mistral-7B-Instruct-v0.30.000.000.0036.2070B免费商用
11DeepSeek-R1-Distill-Qwen-7B0.0053.3091.400.0070B免费商用
12GLM-4-9B-Chat0.0076.400.000.0090B免费商用
1
Qwen3-4B-Thinking-2507
40B
AIME202581.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
2
Hunyuan-7B
70B
AIME202575.30
AIME 202481.10
MATH-50093.70
GSM8K0.00
免费商用
3
Qwen3-8B
80B
AIME202567.30
AIME 202479.40
MATH-50097.40
GSM8K0.00
免费商用
4
Qwen3-4B-2507
40B
AIME202547.40
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
5
Pangu Embedded
70B
AIME20250.00
AIME 202481.90
MATH-50092.40
GSM8K95.98
免费商用
6
Qwen2.5-7B
70B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K85.40
免费商用
7
Llama3.1-8B-Instruct
80B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K82.40
免费商用
8
Gemma 2 - 9B
90B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K70.70
免费商用
9
Llama3.1-8B
80B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K55.30
免费商用
10
Mistral-7B-Instruct-v0.3
70B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K36.20
免费商用
11
DeepSeek-R1-Distill-Qwen-7B
70B
AIME20250.00
AIME 202453.30
MATH-50091.40
GSM8K0.00
免费商用
12
GLM-4-9B-Chat
90B
AIME20250.00
AIME 202476.40
MATH-5000.00
GSM8K0.00
免费商用