返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-05-02 07:14:49

截至 2026年5月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论

榜单亮点

按 FrontierMath - Tier 4 排序

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型

GPT-5.5 ProOpenAI
思考水平 · 极高工具
AIME2025
FrontierMath - Tier 439.60
MATH-500
GSM8K
闭源
GPT-5.5 ProOpenAI
开启思考
AIME2025
FrontierMath - Tier 439.60
MATH-500
GSM8K
闭源
GPT-5.5 ProOpenAI
思考水平 · 极高
AIME2025
FrontierMath - Tier 439.60
MATH-500
GSM8K
闭源
4
GPT-5.4 ProOpenAI
开启思考
AIME2025
FrontierMath - Tier 438.00
MATH-500
GSM8K
闭源
5
GPT-5.4 ProOpenAI
常规模式工具联网
AIME2025
FrontierMath - Tier 437.50
MATH-500
GSM8K
闭源
6
GPT-5.4 ProOpenAI
思考水平 · 极高
AIME2025
FrontierMath - Tier 437.50
MATH-500
GSM8K
闭源
7
GPT-5.5OpenAI
思考水平 · 极高
AIME2025
FrontierMath - Tier 435.40
MATH-500
GSM8K
闭源
8
GPT-5.5OpenAI
开启思考工具
AIME2025
FrontierMath - Tier 435.40
MATH-500
GSM8K
闭源
9
GPT-5.2 ProOpenAI
常规模式工具联网
AIME2025
FrontierMath - Tier 431.30
MATH-500
GSM8K
闭源
10
GPT-5.2 ProOpenAI
开启思考
AIME2025
FrontierMath - Tier 431.30
MATH-500
GSM8K
闭源
11
GPT-5.4OpenAI
思考水平 · 极高
AIME2025
FrontierMath - Tier 427.10
MATH-500
GSM8K
闭源
12
Opus 4.7Anthropic
思考水平 · 极高
AIME2025
FrontierMath - Tier 422.90
MATH-500
GSM8K
闭源
13
Claude Opus 4.6Anthropic
思考水平 · 高
AIME2025
FrontierMath - Tier 422.90
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 420.80
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 420.80
MATH-500
GSM8K
闭源
AIME202595.00
FrontierMath - Tier 418.80
MATH-500
GSM8K
闭源
17
GPT-5.2OpenAI
思考水平 · 极高
AIME2025
FrontierMath - Tier 418.80
MATH-500
GSM8K
闭源
18
GPT-5.2OpenAI
开启思考
AIME2025
FrontierMath - Tier 418.80
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 418.80
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 416.70
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 416.70
MATH-500
GSM8K
闭源
22
GPT-5.2OpenAI
开启思考
AIME2025
FrontierMath - Tier 416.70
MATH-500
GSM8K
闭源
23
GPT-5-ProOpenAI
开启思考
AIME202596.70
FrontierMath - Tier 414.60
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 414.60
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 414.60
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 414.60
MATH-500
GSM8K
闭源
27
GPT-5.2OpenAI
思考水平 · 极高工具
AIME2025
FrontierMath - Tier 414.60
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 414.60
MATH-500
GSM8K
闭源
29
GPT-5.1OpenAI
开启思考
AIME2025
FrontierMath - Tier 412.50
MATH-500
GSM8K
闭源
30
GPT-5.1OpenAI
开启思考工具
AIME2025
FrontierMath - Tier 412.50
MATH-500
GSM8K
闭源
31
GPT-5OpenAI
开启思考
AIME2025
FrontierMath - Tier 412.50
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 410.40
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 410.40
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 48.30
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 46.30
MATH-500
GSM8K
闭源
36
GPT-5OpenAI
开启思考
AIME2025
FrontierMath - Tier 46.30
MATH-500
GSM8K
闭源
37
GPT-5-miniOpenAI
开启思考
AIME2025
FrontierMath - Tier 46.30
MATH-500
GSM8K
闭源
38
GPT-5.2OpenAI
开启思考
AIME2025
FrontierMath - Tier 46.30
MATH-500
GSM8K
闭源
39
GPT-5.4 nanoOpenAI
开启思考
AIME2025
FrontierMath - Tier 46.30
MATH-500
GSM8K
闭源
40
Opus 4.1Anthropic
扩展思考
AIME202578.00
FrontierMath - Tier 44.20
MATH-500
GSM8K
闭源
41
AIME2025
FrontierMath - Tier 44.20
MATH-500
GSM8K
闭源
42
OpenAI o3-mini (high)OpenAI
思考水平 · 高
AIME2025
FrontierMath - Tier 44.20
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 44.20
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 44.20
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 44.20
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 44.20
MATH-500
GSM8K
闭源
47
GPT-5-miniOpenAI
开启思考
AIME2025
FrontierMath - Tier 44.20
MATH-500
GSM8K
闭源
48
Opus 4.1Anthropic
开启思考
AIME2025
FrontierMath - Tier 44.20
MATH-500
GSM8K
闭源
AIME2025
FrontierMath - Tier 44.20
MATH-500
GSM8K
免费商用
50
Opus 4.5Anthropic
开启思考
AIME2025
FrontierMath - Tier 44.20
MATH-500
GSM8K
闭源
排序:
已显示 50 / 221 个模型查看 FrontierMath - Tier 4 基准测试完整页面