DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 GSM8K、MATH、AIME 2025 等多个权威数学基准数据集,对包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek-R1 等模型进行评测。

数据更新于: 2025-07-20 20:56:42

评测切换

在这里切换评测,图表和表格会同步更新

AIME2025AIME 2024MATH-500GSM8K

还有更多评测基准

进入评测基准列表,按类别/语言快速筛选

更多评测

筛选

已筛选
全部3B及以下7B13B34B65B100B及以上
全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI
排名模型AIME2025AIME 2024MATH-500GSM8K参数(亿)开源情况
1Claude Opus 4.699.790.0097.600.00—不开源
2OpenAI o4 - mini99.5098.700.000.00—不开源
3Grok 498.800.000.000.00—不开源
4GPT OSS 20B98.7096.000.000.00210B免费商用
5GPT OSS 120B97.9096.600.000.00117B免费商用
6DeepSeek V3.2 Speciale96.000.000.000.00—免费商用
7GPT-5.194.000.000.000.00—不开源
8DeepSeek V3.293.100.000.000.006710B免费商用
9o3-pro93.0093.000.000.00—不开源
10Qwen3-235B-A22B-Thinking92.300.000.000.00305B免费商用
11Qwen3-235B-A22B-Thinking-250792.300.000.000.002350B免费商用
12GLM-4.7-Flash91.600.000.000.00310B免费商用
13DeepSeek V3.2-Exp89.300.000.000.006710B免费商用
14Grok 4.1 Fast89.000.000.000.00—不开源
15OpenAI o388.9091.6098.100.00—不开源
16Gemini 2.5-Pro88.0092.0098.800.00—不开源
17DeepSeek-R1-052887.5091.4098.000.006710B免费商用
18Gemini 2.5 Pro Experimental 03-2586.9092.000.000.00—不开源
19OpenAI o3-mini86.5060.0095.800.00—不开源
20MiniMax M2.586.300.000.000.002290B免费商用
21Claude Sonnet 485.0043.400.000.00—不开源
22Gemini-2.5-Pro-Preview-05-0683.0092.0098.800.00—不开源
23Qwen3-235B-A22B81.5085.7098.0096.402350B免费商用
24Claude Opus 4.178.000.000.000.00—不开源
25MiniMax-M1-80k76.9086.0096.800.004560B免费商用
26Claude Opus 475.5076.0098.200.00—不开源
27MiniMax-M1-40k74.6083.3096.000.004560B免费商用
28Qwen3-32B72.9081.4097.200.00320B免费商用
29Gemini 2.5 Flash72.0088.000.000.00—不开源
30DeepSeek-R170.0079.8097.300.006710B免费商用
31Qwen3-8B67.3079.4097.400.0080B免费商用
32Magistral-Medium-250664.9573.590.000.00—不开源
33Gemini 2.5 Flash-Lite63.100.000.000.00—不开源
34Magistral-Small-250662.7670.680.000.00240B免费商用
35Qwen3-30B-A3B21.600.000.000.00305B免费商用
36Kimi K2 Thinking100.000.000.000.0010400B免费商用
37GPT-5-Pro100.000.000.000.00—不开源
38OpenAI o3-mini (high)0.0087.0097.900.00—不开源
39GLM-4.5-Air0.0089.4098.100.001060B免费商用
40GLM-4.50.0091.0098.200.003550B免费商用
41Grok 3.50.000.000.000.00—不开源
42OpenAI o10.0079.2096.400.00—不开源
43DeepSeek-R1-Distill-Qwen-7B0.0053.3091.400.0070B免费商用
44Kimi k1.5 (Long-CoT)0.000.0096.200.00—不开源
45Claude Sonnet 3.7-64K Extended Thinking0.0080.0096.200.00—不开源
46Hunyuan-T10.0078.2096.200.00—不开源
47Grok-3 - Reasoning Beta0.0093.300.000.00—不开源
48Grok-3 mini - Reasoning0.0096.000.000.00—不开源
49Kimi k1.5 (Short-CoT)0.000.0094.600.00—不开源
50DeepSeek-R1-Distill-Llama-70B0.000.0094.500.00700B免费商用
51OpenAI o1-mini0.0063.6090.000.00—不开源
52Phi-4-instruct (reasoning-trained)0.0050.0090.400.0038B不开源
53QwQ-32B-Preview0.0050.0090.600.00320B免费商用
54QwQ-32B0.0079.5091.000.00325B免费商用
1
Claude Opus 4.6
AIME202599.79
AIME 20240.00
MATH-50097.60
GSM8K0.00
不开源
2
OpenAI o4 - mini
AIME202599.50
AIME 202498.70
MATH-5000.00
GSM8K0.00
不开源
3
Grok 4
AIME202598.80
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
4
GPT OSS 20B
210B
AIME202598.70
AIME 202496.00
MATH-5000.00
GSM8K0.00
免费商用
5
GPT OSS 120B
117B
AIME202597.90
AIME 202496.60
MATH-5000.00
GSM8K0.00
免费商用
6
DeepSeek V3.2 Speciale
AIME202596.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
7
GPT-5.1
AIME202594.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
8
DeepSeek V3.2
6710B
AIME202593.10
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
9
o3-pro
AIME202593.00
AIME 202493.00
MATH-5000.00
GSM8K0.00
不开源
10
Qwen3-235B-A22B-Thinking
305B
AIME202592.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
11
Qwen3-235B-A22B-Thinking-2507
2350B
AIME202592.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
12
GLM-4.7-Flash
310B
AIME202591.60
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
13
DeepSeek V3.2-Exp
6710B
AIME202589.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
14
Grok 4.1 Fast
AIME202589.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
15
OpenAI o3
AIME202588.90
AIME 202491.60
MATH-50098.10
GSM8K0.00
不开源
16
Gemini 2.5-Pro
AIME202588.00
AIME 202492.00
MATH-50098.80
GSM8K0.00
不开源
17
DeepSeek-R1-0528
6710B
AIME202587.50
AIME 202491.40
MATH-50098.00
GSM8K0.00
免费商用
18
Gemini 2.5 Pro Experimental 03-25
AIME202586.90
AIME 202492.00
MATH-5000.00
GSM8K0.00
不开源
19
OpenAI o3-mini
AIME202586.50
AIME 202460.00
MATH-50095.80
GSM8K0.00
不开源
20
MiniMax M2.5
2290B
AIME202586.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
21
Claude Sonnet 4
AIME202585.00
AIME 202443.40
MATH-5000.00
GSM8K0.00
不开源
22
Gemini-2.5-Pro-Preview-05-06
AIME202583.00
AIME 202492.00
MATH-50098.80
GSM8K0.00
不开源
23
Qwen3-235B-A22B
2350B
AIME202581.50
AIME 202485.70
MATH-50098.00
GSM8K96.40
免费商用
24
Claude Opus 4.1
AIME202578.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
25
MiniMax-M1-80k
4560B
AIME202576.90
AIME 202486.00
MATH-50096.80
GSM8K0.00
免费商用
26
Claude Opus 4
AIME202575.50
AIME 202476.00
MATH-50098.20
GSM8K0.00
不开源
27
MiniMax-M1-40k
4560B
AIME202574.60
AIME 202483.30
MATH-50096.00
GSM8K0.00
免费商用
28
Qwen3-32B
320B
AIME202572.90
AIME 202481.40
MATH-50097.20
GSM8K0.00
免费商用
29
Gemini 2.5 Flash
AIME202572.00
AIME 202488.00
MATH-5000.00
GSM8K0.00
不开源
30
DeepSeek-R1
6710B
AIME202570.00
AIME 202479.80
MATH-50097.30
GSM8K0.00
免费商用
31
Qwen3-8B
80B
AIME202567.30
AIME 202479.40
MATH-50097.40
GSM8K0.00
免费商用
32
Magistral-Medium-2506
AIME202564.95
AIME 202473.59
MATH-5000.00
GSM8K0.00
不开源
33
Gemini 2.5 Flash-Lite
AIME202563.10
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
34
Magistral-Small-2506
240B
AIME202562.76
AIME 202470.68
MATH-5000.00
GSM8K0.00
免费商用
35
Qwen3-30B-A3B
305B
AIME202521.60
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
36
Kimi K2 Thinking
10400B
AIME2025100.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
37
GPT-5-Pro
AIME2025100.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
38
OpenAI o3-mini (high)
AIME20250.00
AIME 202487.00
MATH-50097.90
GSM8K0.00
不开源
39
GLM-4.5-Air
1060B
AIME20250.00
AIME 202489.40
MATH-50098.10
GSM8K0.00
免费商用
40
GLM-4.5
3550B
AIME20250.00
AIME 202491.00
MATH-50098.20
GSM8K0.00
免费商用
41
Grok 3.5
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
42
OpenAI o1
AIME20250.00
AIME 202479.20
MATH-50096.40
GSM8K0.00
不开源
43
DeepSeek-R1-Distill-Qwen-7B
70B
AIME20250.00
AIME 202453.30
MATH-50091.40
GSM8K0.00
免费商用
44
Kimi k1.5 (Long-CoT)
AIME20250.00
AIME 20240.00
MATH-50096.20
GSM8K0.00
不开源
45
Claude Sonnet 3.7-64K Extended Thinking
AIME20250.00
AIME 202480.00
MATH-50096.20
GSM8K0.00
不开源
46
Hunyuan-T1
AIME20250.00
AIME 202478.20
MATH-50096.20
GSM8K0.00
不开源
47
Grok-3 - Reasoning Beta
AIME20250.00
AIME 202493.30
MATH-5000.00
GSM8K0.00
不开源
48
Grok-3 mini - Reasoning
AIME20250.00
AIME 202496.00
MATH-5000.00
GSM8K0.00
不开源
49
Kimi k1.5 (Short-CoT)
AIME20250.00
AIME 20240.00
MATH-50094.60
GSM8K0.00
不开源
50
DeepSeek-R1-Distill-Llama-70B
700B
AIME20250.00
AIME 20240.00
MATH-50094.50
GSM8K0.00
免费商用
51
OpenAI o1-mini
AIME20250.00
AIME 202463.60
MATH-50090.00
GSM8K0.00
不开源
52
Phi-4-instruct (reasoning-trained)
38B
AIME20250.00
AIME 202450.00
MATH-50090.40
GSM8K0.00
不开源
53
QwQ-32B-Preview
320B
AIME20250.00
AIME 202450.00
MATH-50090.60
GSM8K0.00
免费商用
54
QwQ-32B
325B
AIME20250.00
AIME 202479.50
MATH-50091.00
GSM8K0.00
免费商用