返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集,对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-05-02 07:14:49

截至 2026年5月,本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准,聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论

榜单亮点

按 MATH-500 排序

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型

GLM-4.5智谱AI
开启思考
AIME2025
FrontierMath - Tier 4
MATH-50098.20
GSM8K
免费商用
AIME2025
FrontierMath - Tier 4
MATH-50098.10
GSM8K
免费商用
AIME202587.50
FrontierMath - Tier 4
MATH-50098.00
GSM8K
免费商用
AIME202581.50
FrontierMath - Tier 4
MATH-50098.00
GSM8K
免费商用
AIME202567.30
FrontierMath - Tier 4
MATH-50097.40
GSM8K
免费商用
AIME202554.00
FrontierMath - Tier 40.01
MATH-50097.40
GSM8K
免费商用
AIME202570.00
FrontierMath - Tier 4
MATH-50097.30
GSM8K
免费商用
AIME202572.90
FrontierMath - Tier 4
MATH-50097.20
GSM8K
免费商用
AIME202576.90
FrontierMath - Tier 4
MATH-50096.80
GSM8K
免费商用
AIME202568.10
FrontierMath - Tier 4
MATH-50096.80
GSM8K
免费商用
AIME202535.10
FrontierMath - Tier 4
MATH-50096.40
GSM8K96.60
免费商用
AIME202524.70
FrontierMath - Tier 4
MATH-50096.20
GSM8K96.40
免费商用
AIME2025
FrontierMath - Tier 4
MATH-50096.20
GSM8K
闭源
AIME2025
FrontierMath - Tier 4
MATH-50096.20
GSM8K
闭源
AIME202574.60
FrontierMath - Tier 4
MATH-50096.00
GSM8K
免费商用
AIME2025
FrontierMath - Tier 4
MATH-50094.60
GSM8K
闭源
AIME2025
FrontierMath - Tier 4
MATH-50094.50
GSM8K
免费商用
AIME202547.70
FrontierMath - Tier 4
MATH-50094.00
GSM8K96.30
免费商用
AIME202575.30
FrontierMath - Tier 4
MATH-50093.70
GSM8K
免费商用
AIME2025
FrontierMath - Tier 4
MATH-50092.40
GSM8K95.98
免费商用
AIME2025
FrontierMath - Tier 4
MATH-50091.40
GSM8K
免费商用
AIME2025
FrontierMath - Tier 4
MATH-50091.00
GSM8K
免费商用
AIME2025
FrontierMath - Tier 4
MATH-50090.60
GSM8K
免费商用
AIME202520.20
FrontierMath - Tier 4
MATH-50088.60
GSM8K
免费商用
AIME2025
FrontierMath - Tier 4
MATH-50087.80
GSM8K
免费商用
AIME202520.90
FrontierMath - Tier 4
MATH-50087.40
GSM8K
免费商用
27
Step 3.5 FlashStepFunAI
开启思考工具
AIME202599.80
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
28
Kimi K2 ThinkingMoonshot AI
开启思考工具
AIME202599.10
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
29
GLM-4.6智谱AI
开启思考
AIME202598.60
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
30
GLM-4.6智谱AI
开启思考工具
AIME202598.60
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202597.30
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
32
AIME202596.10
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202596.00
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
34
GLM-4.7智谱AI
开启思考
AIME202595.70
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202594.50
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202593.10
FrontierMath - Tier 42.10
MATH-500
GSM8K
免费商用
AIME202592.30
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202592.30
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
39
AIME202591.60
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202590.00
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202589.30
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202588.40
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
43
AIME202586.30
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202586.00
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202582.90
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202581.30
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
47
M2.1MiniMaxAI
开启思考
AIME202581.00
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202580.60
FrontierMath - Tier 4
MATH-500
GSM8K
闭源
49
AIME202578.00
FrontierMath - Tier 4
MATH-500
GSM8K
免费商用
AIME202576.80
FrontierMath - Tier 4
MATH-500
GSM8K91.83
免费商用
排序:
已显示 50 / 74 个模型查看 MATH-500 基准测试完整页面