大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集，对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-05-02 07:14:49

截至 2026年5月，本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准，聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

基准评测

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 GSM8K 排序

当前 SOTA

ERNIE-4.5-300B-A47B

百度

96.60GSM8K

查看详情

最佳开源

ERNIE-4.5-300B-A47B

百度

96.60GSM8K

查看详情

最佳国产

ERNIE-4.5-300B-A47B

百度

96.60GSM8K

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	ERNIE-4.5-300B-A47B 百度	35.10	—	96.40	96.60	免费商用	详情
	Qwen3-235B-A22B 阿里巴巴	81.50	—	98.00	96.40	免费商用	详情
	DeepSeek-V3-0324 DeepSeek-AI	47.70	—	94.00	96.30	免费商用	详情
4	GPT-4.1 OpenAI	36.70	—	92.80	95.90	闭源	详情
5	Qwen2.5-Max 阿里巴巴	—	—	—	94.50	闭源	详情
6	Step 3.5 Flash StepFunAI	99.80	—	—	—	免费商用	详情
7	OpenAI o4 - mini OpenAI	99.50	6.30	—	—	闭源	详情
8	GLM-4.6 智谱AI	98.60	2.10	—	—	免费商用	详情
9	Kimi K2.5 Moonshot AI	96.10	4.20	—	—	免费商用	详情
10	GLM-4.7 智谱AI	95.70	2.10	—	—	免费商用	详情
11	DeepSeek V3.2 DeepSeek-AI	93.10	2.10	—	—	免费商用	详情
12	o3-pro OpenAI	93.00	—	—	—	闭源	详情
13	Qwen3-235B-A22B-Thinking-2507 阿里巴巴	92.30	—	—	—	免费商用	详情
14	DeepSeek-V3.1 Terminus DeepSeek-AI	90.00	—	—	—	免费商用	详情
15	DeepSeek V3.2-Exp DeepSeek-AI	89.30	—	—	—	免费商用	详情
16	DeepSeek-V3.1 DeepSeek-AI	88.40	—	—	—	免费商用	详情
17	DeepSeek-R1-0528 DeepSeek-AI	87.50	—	98.00	—	免费商用	详情
18	MiniMax M2.5 MiniMaxAI	86.30	—	—	—	免费商用	详情
19	Intern-S1 上海人工智能实验室	86.00	—	—	—	免费商用	详情
20	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	83.00	2.10	98.80	—	闭源	详情
21	Step3 StepFunAI	82.90	—	—	—	免费商用	详情
22	M2.1 MiniMaxAI	81.00	—	—	—	免费商用	详情
23	MiniMax M2 MiniMaxAI	78.00	—	—	—	免费商用	详情
24	Grok 3 xAI	77.10	—	—	—	闭源	详情
25	MiniMax-M1-80k MiniMaxAI	76.90	—	96.80	—	免费商用	详情
26	Claude Opus 4 Anthropic	75.50	4.20	98.20	—	闭源	详情
27	Kimi K2 0905 Moonshot AI	75.20	—	—	—	免费商用	详情
28	MiniMax-M1-40k MiniMaxAI	74.60	—	96.00	—	免费商用	详情
29	Gemini 2.5 Flash Google Deep Mind	72.00	4.20	—	—	闭源	详情
30	Qwen3-235B-A22B-2507 阿里巴巴	70.30	—	—	—	免费商用	详情
31	DeepSeek-R1 DeepSeek-AI	70.00	—	97.30	—	免费商用	详情
32	Magistral-Medium-2506 MistralAI	64.95	—	—	—	闭源	详情
33	Gemini 2.5 Flash-Lite Google Deep Mind	63.10	—	—	—	闭源	详情
34	Claude Sonnet 3.7 Anthropic	54.80	—	82.20	—	闭源	详情
35	Kimi K2 Moonshot AI	54.00	0.01	97.40	—	免费商用	详情
36	ERNIE-4.5-VL-424B-A47B-Base 百度	35.10	—	—	—	免费商用	详情
37	Gemini 2.0 Flash Experimental DeepMind	29.70	—	—	—	闭源	详情
38	Kimi K2 Thinking Moonshot AI	100.00	—	—	—	免费商用	详情
39	Llama3.1-405B Instruct Facebook AI研究实验室	—	—	—	—	免费商用	详情
40	Grok 3.5 xAI	—	—	—	—	闭源	详情
41	Gemini 2.5 Pro Deep Think Google Deep Mind	—	10.40	—	—	闭源	详情
42	GLM-5 智谱AI	—	2.10	—	—	免费商用	详情
43	Claude 3.5 Sonnet Anthropic	—	—	—	—	闭源	详情
44	Kimi k1.5 (Long-CoT) Moonshot AI	—	—	96.20	—	闭源	详情
45	Amazon Nova Pro 亚马逊	—	—	—	—	闭源	详情
46	GLM-4.5 智谱AI	—	—	98.20	—	免费商用	详情
47	GLM-4.5-Air 智谱AI	—	—	98.10	—	免费商用	详情
48	OpenAI o3-mini (high) OpenAI	—	4.20	97.90	—	闭源	详情
49	OpenAI o1 OpenAI	—	—	96.40	—	闭源	详情
50	DeepSeek-V3 DeepSeek-AI	—	—	87.80	—	免费商用	详情

ERNIE-4.5-300B-A47B 百度

AIME202535.10

FrontierMath - Tier 4—

MATH-50096.40

GSM8K96.60

免费商用

Qwen3-235B-A22B 阿里巴巴

AIME202581.50

FrontierMath - Tier 4—

MATH-50098.00

GSM8K96.40

免费商用

DeepSeek-V3-0324 DeepSeek-AI

AIME202547.70

FrontierMath - Tier 4—

MATH-50094.00

GSM8K96.30

免费商用

GPT-4.1 OpenAI

AIME202536.70

FrontierMath - Tier 4—

MATH-50092.80

GSM8K95.90

闭源

Qwen2.5-Max 阿里巴巴

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K94.50

闭源

Step 3.5 Flash StepFunAI

AIME202599.80

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

OpenAI o4 - mini OpenAI

AIME202599.50

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

闭源

GLM-4.6 智谱AI

AIME202598.60

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

免费商用

Kimi K2.5 Moonshot AI

AIME202596.10

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

免费商用

GLM-4.7 智谱AI

AIME202595.70

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

免费商用

DeepSeek V3.2 DeepSeek-AI

AIME202593.10

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

免费商用

o3-pro OpenAI

AIME202593.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Qwen3-235B-A22B-Thinking-2507 阿里巴巴

AIME202592.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

DeepSeek-V3.1 Terminus DeepSeek-AI

AIME202590.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

DeepSeek V3.2-Exp DeepSeek-AI

AIME202589.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

DeepSeek-V3.1 DeepSeek-AI

AIME202588.40

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

DeepSeek-R1-0528 DeepSeek-AI

AIME202587.50

FrontierMath - Tier 4—

MATH-50098.00

GSM8K—

免费商用

MiniMax M2.5 MiniMaxAI

AIME202586.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Intern-S1 上海人工智能实验室

AIME202586.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Gemini-2.5-Pro-Preview-05-06 Google Deep Mind

AIME202583.00

FrontierMath - Tier 42.10

MATH-50098.80

GSM8K—

闭源

Step3 StepFunAI

AIME202582.90

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

M2.1 MiniMaxAI

AIME202581.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

MiniMax M2 MiniMaxAI

AIME202578.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Grok 3 xAI

AIME202577.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

MiniMax-M1-80k MiniMaxAI

AIME202576.90

FrontierMath - Tier 4—

MATH-50096.80

GSM8K—

免费商用

Claude Opus 4 Anthropic

AIME202575.50

FrontierMath - Tier 44.20

MATH-50098.20

GSM8K—

闭源

Kimi K2 0905 Moonshot AI

AIME202575.20

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

MiniMax-M1-40k MiniMaxAI

AIME202574.60

FrontierMath - Tier 4—

MATH-50096.00

GSM8K—

免费商用

Gemini 2.5 Flash Google Deep Mind

AIME202572.00

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

闭源

Qwen3-235B-A22B-2507 阿里巴巴

AIME202570.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

DeepSeek-R1 DeepSeek-AI

AIME202570.00

FrontierMath - Tier 4—

MATH-50097.30

GSM8K—

免费商用

Magistral-Medium-2506 MistralAI

AIME202564.95

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Gemini 2.5 Flash-Lite Google Deep Mind

AIME202563.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Claude Sonnet 3.7 Anthropic

AIME202554.80

FrontierMath - Tier 4—

MATH-50082.20

GSM8K—

闭源

Kimi K2 Moonshot AI

AIME202554.00

FrontierMath - Tier 40.01

MATH-50097.40

GSM8K—

免费商用

ERNIE-4.5-VL-424B-A47B-Base 百度

AIME202535.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Gemini 2.0 Flash Experimental DeepMind

AIME202529.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Kimi K2 Thinking Moonshot AI

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Llama3.1-405B Instruct Facebook AI研究实验室

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Grok 3.5 xAI

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Gemini 2.5 Pro Deep Think Google Deep Mind

AIME2025—

FrontierMath - Tier 410.40

MATH-500—

GSM8K—

闭源

GLM-5 智谱AI

AIME2025—

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

免费商用

Claude 3.5 Sonnet Anthropic

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Kimi k1.5 (Long-CoT)Moonshot AI

AIME2025—

FrontierMath - Tier 4—

MATH-50096.20

GSM8K—

闭源

Amazon Nova Pro 亚马逊

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

GLM-4.5 智谱AI

AIME2025—

FrontierMath - Tier 4—

MATH-50098.20

GSM8K—

免费商用

GLM-4.5-Air 智谱AI

AIME2025—

FrontierMath - Tier 4—

MATH-50098.10

GSM8K—

免费商用

OpenAI o3-mini (high)OpenAI

AIME2025—

FrontierMath - Tier 44.20

MATH-50097.90

GSM8K—

闭源

OpenAI o1 OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-50096.40

GSM8K—

闭源

DeepSeek-V3 DeepSeek-AI

AIME2025—

FrontierMath - Tier 4—

MATH-50087.80

GSM8K—

免费商用

排序：

已显示 50 / 55 个模型查看 GSM8K 基准测试完整页面