DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 GSM8K、MATH、AIME 2025 等多个权威数学基准数据集,对包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek-R1 等模型进行评测。

数据更新于: 2025-07-20 20:56:42

评测切换

在这里切换评测,图表和表格会同步更新

AIME2025AIME 2024MATH-500GSM8K

还有更多评测基准

进入评测基准列表,按类别/语言快速筛选

更多评测

筛选

已筛选
全部3B及以下7B13B34B65B100B及以上
全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI
排名模型AIME2025AIME 2024MATH-500GSM8K参数(亿)开源情况
1Step 3.5 Flash99.800.000.000.001960B免费商用
2Gemini 3.0 Flash99.700.000.000.00—不开源
3
Gemini 2.5 Deep Think
99.20
0.00
0.00
0.00
—
不开源
4GLM-4.698.600.000.000.003550B免费商用
5GLM-4.795.700.000.000.003580B免费商用
6Grok 4 Fast92.000.000.000.00—不开源
7DeepSeek-V3.1 Terminus90.000.000.000.006710B免费商用
8DeepSeek-V3.188.4093.100.000.006710B免费商用
9Qwen3-4B-Thinking-250781.300.000.000.0040B免费商用
10M2.181.000.000.000.002300B免费商用
11Qwen3 Max (Preview)80.600.000.000.00—不开源
12MiniMax M278.000.000.000.002300B免费商用
13Grok 377.1084.200.000.00—不开源
14Hunyuan-7B75.3081.1093.700.0070B免费商用
15Kimi K2 090575.200.000.000.0010000B免费商用
16Qwen3-235B-A22B-250770.300.000.000.002350B免费商用
17Qwen3-Next69.500.000.0090.30800B免费商用
18Pangu Pro MoE68.1079.2096.800.00719B免费商用
19Qwen3-30B-A3B-250761.300.000.000.00305B免费商用
20Claude Sonnet 3.754.8023.3082.200.00—不开源
21Kimi K254.0069.6097.400.0010000B免费商用
22DeepSeek-V3-032447.7059.4094.0096.306710B免费商用
23Qwen3-4B-250747.400.000.000.0040B免费商用
24GPT-4.136.7048.1092.8095.90—不开源
25ERNIE-4.5-300B-A47B35.1054.8096.4096.603000B免费商用
26GPT-4o(2025-03-27)26.700.000.000.00—不开源
27Claude Sonnet 4.5100.000.000.000.00—不开源
28Grok 4 Heavy100.000.000.000.00—不开源
29GPT-5.2100.000.000.000.00—不开源
30Pangu Embedded0.0081.9092.4095.9870B免费商用
31Qwen2.5-Max0.000.000.0094.50—不开源
32Phi-4-mini-instruct (3.8B)0.0010.0071.8088.6038B免费商用
33Llama3.1-8B-Instruct0.000.000.0082.4080B免费商用
34Moonlight-16B-A3B-Instruct0.000.000.0077.40160B免费商用
35Mistral-7B-Instruct-v0.30.000.000.0036.2070B免费商用
36GPT-4.50.0036.7090.700.00—不开源
37DeepSeek-V30.0039.0087.800.006810B免费商用
38Claude 3.5 Sonnet New0.0016.0078.000.00—不开源
39GLM-4-9B-Chat0.0076.400.000.0090B免费商用
40GPT-4.1 mini0.0049.600.000.00—不开源
41Gemini 2.0 Pro Experimental0.0036.000.000.00—不开源
42GPT-4.1 nano0.0029.400.000.00—不开源
43Gemma 3 - 27B (IT)0.0025.300.000.00270B免费商用
1
Step 3.5 Flash
1960B
AIME202599.80
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
2
Gemini 3.0 Flash
AIME202599.70
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
3
Gemini 2.5 Deep Think
AIME202599.20
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
4
GLM-4.6
3550B
AIME202598.60
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
5
GLM-4.7
3580B
AIME202595.70
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
6
Grok 4 Fast
AIME202592.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
7
DeepSeek-V3.1 Terminus
6710B
AIME202590.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
8
DeepSeek-V3.1
6710B
AIME202588.40
AIME 202493.10
MATH-5000.00
GSM8K0.00
免费商用
9
Qwen3-4B-Thinking-2507
40B
AIME202581.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
10
M2.1
2300B
AIME202581.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
11
Qwen3 Max (Preview)
AIME202580.60
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
12
MiniMax M2
2300B
AIME202578.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
13
Grok 3
AIME202577.10
AIME 202484.20
MATH-5000.00
GSM8K0.00
不开源
14
Hunyuan-7B
70B
AIME202575.30
AIME 202481.10
MATH-50093.70
GSM8K0.00
免费商用
15
Kimi K2 0905
10000B
AIME202575.20
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
16
Qwen3-235B-A22B-2507
2350B
AIME202570.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
17
Qwen3-Next
800B
AIME202569.50
AIME 20240.00
MATH-5000.00
GSM8K90.30
免费商用
18
Pangu Pro MoE
719B
AIME202568.10
AIME 202479.20
MATH-50096.80
GSM8K0.00
免费商用
19
Qwen3-30B-A3B-2507
305B
AIME202561.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
20
Claude Sonnet 3.7
AIME202554.80
AIME 202423.30
MATH-50082.20
GSM8K0.00
不开源
21
Kimi K2
10000B
AIME202554.00
AIME 202469.60
MATH-50097.40
GSM8K0.00
免费商用
22
DeepSeek-V3-0324
6710B
AIME202547.70
AIME 202459.40
MATH-50094.00
GSM8K96.30
免费商用
23
Qwen3-4B-2507
40B
AIME202547.40
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
24
GPT-4.1
AIME202536.70
AIME 202448.10
MATH-50092.80
GSM8K95.90
不开源
25
ERNIE-4.5-300B-A47B
3000B
AIME202535.10
AIME 202454.80
MATH-50096.40
GSM8K96.60
免费商用
26
GPT-4o(2025-03-27)
AIME202526.70
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
27
Claude Sonnet 4.5
AIME2025100.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
28
Grok 4 Heavy
AIME2025100.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
29
GPT-5.2
AIME2025100.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
30
Pangu Embedded
70B
AIME20250.00
AIME 202481.90
MATH-50092.40
GSM8K95.98
免费商用
31
Qwen2.5-Max
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K94.50
不开源
32
Phi-4-mini-instruct (3.8B)
38B
AIME20250.00
AIME 202410.00
MATH-50071.80
GSM8K88.60
免费商用
33
Llama3.1-8B-Instruct
80B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K82.40
免费商用
34
Moonlight-16B-A3B-Instruct
160B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K77.40
免费商用
35
Mistral-7B-Instruct-v0.3
70B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K36.20
免费商用
36
GPT-4.5
AIME20250.00
AIME 202436.70
MATH-50090.70
GSM8K0.00
不开源
37
DeepSeek-V3
6810B
AIME20250.00
AIME 202439.00
MATH-50087.80
GSM8K0.00
免费商用
38
Claude 3.5 Sonnet New
AIME20250.00
AIME 202416.00
MATH-50078.00
GSM8K0.00
不开源
39
GLM-4-9B-Chat
90B
AIME20250.00
AIME 202476.40
MATH-5000.00
GSM8K0.00
免费商用
40
GPT-4.1 mini
AIME20250.00
AIME 202449.60
MATH-5000.00
GSM8K0.00
不开源
41
Gemini 2.0 Pro Experimental
AIME20250.00
AIME 202436.00
MATH-5000.00
GSM8K0.00
不开源
42
GPT-4.1 nano
AIME20250.00
AIME 202429.40
MATH-5000.00
GSM8K0.00
不开源
43
Gemma 3 - 27B (IT)
270B
AIME20250.00
AIME 202425.30
MATH-5000.00
GSM8K0.00
免费商用