DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-05-02 07:14:49

截至 2026年5月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
AIME2025FrontierMath - Tier 4MATH-500GSM8K
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型
模型发布时间截止:

大模型性能评测结果

数据来源:DataLearnerAI
排名模型开源情况
Moonshot AI
Kimi K2 Thinking
并行 · 开启思考工具
Moonshot AI
100.00———免费商用
Anthropic
Claude Sonnet 4.5
开启思考工具
Anthropic
100.00———闭源
OpenAI
GPT-5-Pro
开启思考工具
OpenAI
100.00———闭源
4
xAI
Grok 4 Heavy
并行 · 开启思考
xAI
100.00———闭源
5
OpenAI
GPT-5.2
思考水平 · 极高
OpenAI
100.00———闭源
6
StepFunAI
Step 3.5 Flash
开启思考工具
StepFunAI
99.80———免费商用
7
Anthropic
Claude Opus 4.6
扩展思考
Anthropic
99.79—97.60—闭源
8
Google Deep Mind
Gemini 3.0 Flash
开启思考工具
Google Deep Mind
99.70———闭源
9
OpenAI
GPT-5
开启思考工具
OpenAI
99.60———闭源
10
OpenAI
OpenAI o4 - mini
开启思考工具
OpenAI
99.50———闭源
11
Google Deep Mind
Gemini 2.5 Deep Think
深度思考模式
Google Deep Mind
99.20———闭源
12
Moonshot AI
Kimi K2 Thinking
开启思考工具
Moonshot AI
99.10———免费商用
13
xAI
Grok 4
开启思考工具
xAI
98.80———闭源
14
OpenAI
GPT OSS 20B
开启思考工具
OpenAI
98.70———免费商用
15
智谱AI
GLM-4.6
开启思考
智谱AI
98.60———免费商用
16
智谱AI
GLM-4.6
开启思考工具
智谱AI
98.60———免费商用
17
OpenAI
GPT OSS 120B
开启思考工具
OpenAI
97.90———免费商用
18
StepFunAI
Step 3.5 Flash
开启思考
StepFunAI
97.30———免费商用
19
OpenAI
GPT-5-Pro
开启思考
OpenAI
96.7014.60——闭源
20
Anthropic
Haiku 4.5
开启思考工具
Anthropic
96.30———闭源
21
Moonshot AI
Kimi K2.5
开启思考
Moonshot AI
96.10———免费商用
22
DeepSeek-AI
DeepSeek V3.2 Speciale
开启思考
DeepSeek-AI
96.00———免费商用
23
智谱AI
GLM-4.7
开启思考
智谱AI
95.70———免费商用
24
Google Deep Mind
Gemini 3.0 Flash
开启思考
Google Deep Mind
95.20———闭源
25
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
开启思考
Google Deep Mind
95.0018.80——闭源
26
OpenAI
GPT-5
开启思考
OpenAI
94.60———闭源
27
Moonshot AI
Kimi K2 Thinking
开启思考
Moonshot AI
94.50———免费商用
28
OpenAI
GPT-5.1
思考水平 · 高
OpenAI
94.00———闭源
29
OpenAI
GPT-5.1
思考水平 · 高
OpenAI
94.00———闭源
30
DeepSeek-AI
DeepSeek V3.2
开启思考
DeepSeek-AI
93.102.10——免费商用
31
OpenAI
o3-pro
OpenAI
93.00———闭源
32
OpenAI
OpenAI o4 - mini
开启思考
OpenAI
92.70———闭源
33
阿里巴巴
Qwen3-235B-A22B-Thinking
开启思考
阿里巴巴
92.30———免费商用
34
阿里巴巴
Qwen3-235B-A22B-Thinking-2507
开启思考
阿里巴巴
92.30———免费商用
35
xAI
Grok 4 Fast
开启思考
xAI
92.00———闭源
36
xAI
Grok 4
开启思考
xAI
91.70———闭源
37
智谱AI
GLM-4.7-Flash
开启思考
智谱AI
91.60———免费商用
38
DeepSeek-AI
DeepSeek-V3.1 Terminus
开启思考
DeepSeek-AI
90.00———免费商用
39
DeepSeek-AI
DeepSeek V3.2-Exp
开启思考
DeepSeek-AI
89.30———免费商用
40
xAI
Grok 4.1 Fast
开启思考
xAI
89.00———闭源
41
OpenAI
OpenAI o3
开启思考
OpenAI
88.90———闭源
42
DeepSeek-AI
DeepSeek-V3.1
开启思考
DeepSeek-AI
88.40———免费商用
43
Google Deep Mind
Gemini 2.5-Pro
开启思考
Google Deep Mind
88.00———闭源
44
DeepSeek-AI
DeepSeek-R1-0528
开启思考
DeepSeek-AI
87.50—98.00—免费商用
45
Anthropic
Claude Sonnet 4.5
开启思考
Anthropic
87.00———闭源
46
Google Deep Mind
Gemini 2.5 Pro Experimental 03-25
Google Deep Mind
86.90———闭源
47
OpenAI
OpenAI o3-mini
开启思考
OpenAI
86.50—95.80—闭源
48
MiniMaxAI
MiniMax M2.5
开启思考
MiniMaxAI
86.30———免费商用
49
上海人工智能实验室
Intern-S1
上海人工智能实验室
86.00———免费商用
50
Anthropic
Claude Sonnet 4
深度思考模式工具
Anthropic
85.00———闭源
Kimi K2 Thinking
Moonshot AI
并行 · 开启思考工具
AIME2025100.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
Claude Sonnet 4.5
Anthropic
开启思考工具
AIME2025100.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
GPT-5-Pro
OpenAI
开启思考工具
AIME2025100.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
4
Grok 4 Heavy
xAI
并行 · 开启思考
AIME2025100.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
5
GPT-5.2
OpenAI
思考水平 · 极高
AIME2025100.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
6
Step 3.5 Flash
StepFunAI
开启思考工具
AIME202599.80
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
7
Claude Opus 4.6
Anthropic
扩展思考
AIME202599.79
FrontierMath - Tier 4—
MATH-50097.60
GSM8K—
闭源
8
Gemini 3.0 Flash
Google Deep Mind
开启思考工具
AIME202599.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
9
GPT-5
OpenAI
开启思考工具
AIME202599.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
10
OpenAI o4 - mini
OpenAI
开启思考工具
AIME202599.50
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
11
Gemini 2.5 Deep Think
Google Deep Mind
深度思考模式
AIME202599.20
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
12
Kimi K2 Thinking
Moonshot AI
开启思考工具
AIME202599.10
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
13
Grok 4
xAI
开启思考工具
AIME202598.80
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
14
GPT OSS 20B
OpenAI
开启思考工具
AIME202598.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
15
GLM-4.6
智谱AI
开启思考
AIME202598.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
16
GLM-4.6
智谱AI
开启思考工具
AIME202598.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
17
GPT OSS 120B
OpenAI
开启思考工具
AIME202597.90
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
18
Step 3.5 Flash
StepFunAI
开启思考
AIME202597.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
19
GPT-5-Pro
OpenAI
开启思考
AIME202596.70
FrontierMath - Tier 414.60
MATH-500—
GSM8K—
闭源
20
Haiku 4.5
Anthropic
开启思考工具
AIME202596.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
21
Kimi K2.5
Moonshot AI
开启思考
AIME202596.10
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
22
DeepSeek V3.2 Speciale
DeepSeek-AI
开启思考
AIME202596.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
23
GLM-4.7
智谱AI
开启思考
AIME202595.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
24
Gemini 3.0 Flash
Google Deep Mind
开启思考
AIME202595.20
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
25
Gemini 3.0 Pro (Preview 11-2025)
Google Deep Mind
开启思考
AIME202595.00
FrontierMath - Tier 418.80
MATH-500—
GSM8K—
闭源
26
GPT-5
OpenAI
开启思考
AIME202594.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
27
Kimi K2 Thinking
Moonshot AI
开启思考
AIME202594.50
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
28
GPT-5.1
OpenAI
思考水平 · 高
AIME202594.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
29
GPT-5.1
OpenAI
思考水平 · 高
AIME202594.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
30
DeepSeek V3.2
DeepSeek-AI
开启思考
AIME202593.10
FrontierMath - Tier 42.10
MATH-500—
GSM8K—
免费商用
31
o3-pro
OpenAI
AIME202593.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
32
OpenAI o4 - mini
OpenAI
开启思考
AIME202592.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
33
Qwen3-235B-A22B-Thinking
阿里巴巴
开启思考
AIME202592.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
34
Qwen3-235B-A22B-Thinking-2507
阿里巴巴
开启思考
AIME202592.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
35
Grok 4 Fast
xAI
开启思考
AIME202592.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
36
Grok 4
xAI
开启思考
AIME202591.70
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
37
GLM-4.7-Flash
智谱AI
开启思考
AIME202591.60
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
38
DeepSeek-V3.1 Terminus
DeepSeek-AI
开启思考
AIME202590.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
39
DeepSeek V3.2-Exp
DeepSeek-AI
开启思考
AIME202589.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
40
Grok 4.1 Fast
xAI
开启思考
AIME202589.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
41
OpenAI o3
OpenAI
开启思考
AIME202588.90
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
42
DeepSeek-V3.1
DeepSeek-AI
开启思考
AIME202588.40
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
43
Gemini 2.5-Pro
Google Deep Mind
开启思考
AIME202588.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
44
DeepSeek-R1-0528
DeepSeek-AI
开启思考
AIME202587.50
FrontierMath - Tier 4—
MATH-50098.00
GSM8K—
免费商用
45
Claude Sonnet 4.5
Anthropic
开启思考
AIME202587.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
46
Gemini 2.5 Pro Experimental 03-25
Google Deep Mind
AIME202586.90
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
47
OpenAI o3-mini
OpenAI
开启思考
AIME202586.50
FrontierMath - Tier 4—
MATH-50095.80
GSM8K—
闭源
48
MiniMax M2.5
MiniMaxAI
开启思考
AIME202586.30
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
49
Intern-S1
上海人工智能实验室
AIME202586.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
免费商用
50
Claude Sonnet 4
Anthropic
深度思考模式工具
AIME202585.00
FrontierMath - Tier 4—
MATH-500—
GSM8K—
闭源
排序:
已显示 50 / 221 个模型查看 AIME2025 基准测试完整页面