大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集，对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-05-02 07:14:49

截至 2026年5月，本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准，聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

基准评测

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 GSM8K 排序

当前 SOTA

Pangu Embedded

华为

95.98GSM8K

查看详情

最佳开源

Pangu Embedded

华为

95.98GSM8K

查看详情

最佳国产

Pangu Embedded

华为

95.98GSM8K

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	Pangu Embedded 华为	—	—	92.40	95.98	免费商用	详情
	Qwen2.5-7B 阿里巴巴	—	—	—	85.40	免费商用	详情
	Llama3.1-8B-Instruct Facebook AI研究实验室	—	—	—	82.40	免费商用	详情
4	Gemma 2 - 9B Google Research	—	—	—	70.70	免费商用	详情
5	Llama3.1-8B Facebook AI研究实验室	—	—	—	55.30	免费商用	详情
6	Mistral-7B-Instruct-v0.3 MistralAI	—	—	—	36.20	免费商用	详情
7	Qwen3-4B-Thinking-2507 阿里巴巴	81.30	—	—	—	免费商用	详情
8	Hunyuan-7B Tencent ARC	75.30	—	93.70	—	免费商用	详情
9	Qwen3-8B 阿里巴巴	67.30	—	97.40	—	免费商用	详情
10	Qwen3-4B-2507 阿里巴巴	47.40	—	—	—	免费商用	详情
11	DeepSeek-R1-Distill-Qwen-7B DeepSeek-AI	—	—	91.40	—	免费商用	详情