返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-05-02 07:14:49

截至 2026年5月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论

榜单亮点

按 AIME2025 排序

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型

Kimi K2 ThinkingMoonshot AI
并行 · 开启思考工具
AIME2025100.00
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
Claude Sonnet 4.5Anthropic
开启思考工具
AIME2025100.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
GPT-5-ProOpenAI
开启思考工具
AIME2025100.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
4
Grok 4 HeavyxAI
并行 · 开启思考
AIME2025100.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
5
GPT-5.2OpenAI
思考水平 · 极高
AIME2025100.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
6
Step 3.5 FlashStepFunAI
开启思考工具
AIME202599.80
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202599.79
FrontierMath - Tier 4
MATH-50097.60
GSM8K
闭源
AIME202599.70
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
9
GPT-5OpenAI
开启思考工具
AIME202599.60
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
10
OpenAI o4 - miniOpenAI
开启思考工具
AIME202599.50
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
AIME202599.20
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
12
Kimi K2 ThinkingMoonshot AI
开启思考工具
AIME202599.10
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
13
Grok 4xAI
开启思考工具
AIME202598.80
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
14
GPT OSS 20BOpenAI
开启思考工具
AIME202598.70
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
15
GLM-4.6智谱AI
开启思考
AIME202598.60
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
16
GLM-4.6智谱AI
开启思考工具
AIME202598.60
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
17
GPT OSS 120BOpenAI
开启思考工具
AIME202597.90
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202597.30
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
19
GPT-5-ProOpenAI
开启思考
AIME202596.70
FrontierMath - Tier 414.60
MATH-500
GSM8K
闭源
20
Haiku 4.5Anthropic
开启思考工具
AIME202596.30
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
21
AIME202596.10
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202596.00
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
23
GLM-4.7智谱AI
开启思考
AIME202595.70
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202595.20
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
AIME202595.00
FrontierMath - Tier 418.80
MATH-500
GSM8K
闭源
26
GPT-5OpenAI
开启思考
AIME202594.60
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
AIME202594.50
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
28
GPT-5.1OpenAI
思考水平 · 高
AIME202594.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
29
GPT-5.1OpenAI
开启思考
AIME202594.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
AIME202593.10
FrontierMath - Tier 42.10
MATH-500
GSM8K
免费商用
AIME202593.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
AIME202592.70
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
AIME202592.30
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202592.30
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
35
Grok 4 FastxAI
开启思考
AIME202592.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
36
Grok 4xAI
开启思考
AIME202591.70
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
37
AIME202591.60
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202590.00
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202589.30
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
40
Grok 4.1 FastxAI
开启思考
AIME202589.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
41
OpenAI o3OpenAI
开启思考
AIME202588.90
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
AIME202588.40
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202588.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
AIME202587.50
FrontierMath - Tier 4
MATH-50098.00
GSM8K
免费商用
AIME202587.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
AIME202586.90
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
47
AIME202586.50
FrontierMath - Tier 4
MATH-50095.80
GSM8K
闭源
48
AIME202586.30
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202586.00
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
50
Claude Sonnet 4Anthropic
深度思考模式工具
AIME202585.00
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
排序:
已显示 50 / 221 个模型查看 AIME2025 基准测试完整页面