大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集，对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-05-02 07:14:49

截至 2026年5月，本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准，聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

基准评测

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 GSM8K 排序

当前 SOTA

Phi-4-mini-instruct (3.8B)

Microsoft Azure

88.60GSM8K

查看详情

最佳开源

Phi-4-mini-instruct (3.8B)

Microsoft Azure

88.60GSM8K

查看详情

最佳国产

Qwen2.5-3B

阿里巴巴

79.10GSM8K−9.50

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	Phi-4-mini-instruct (3.8B) Microsoft Azure	—	—	71.80	88.60	免费商用	详情
	Qwen2.5-3B 阿里巴巴	—	—	—	79.10	免费商用	详情
	Llama-3.2-3B Facebook AI研究实验室	—	—	—	34.00	免费商用	详情
4	Phi-4-instruct (reasoning-trained) Microsoft Azure	—	—	90.40	—	闭源	详情