加载中...

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 GSM8K、MATH、AIME 2025 等多个权威数学基准数据集，对包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek-R1 等模型进行评测。

Updated on: 2025-07-20 20:56:42

AIME2025 AIME 2024 MATH-500 GSM8K

More Benchmarks

Model Size:All 3B and below 7B 13B 34B 65B 100B and above

Model Type:All Reasoning Models Foundation Models Instruction/Chat Models Coding Models

LLM Performance Results

Data source: DataLearnerAI

Rank	Model	AIME2025	AIME 2024	MATH-500	GSM8K	Params (B)	License
1	Step 3.5 Flash	99.80	0.00	0.00	0.00	1960B	Free commercial
2	OpenAI o4 - mini

Step 3.5 Flash

1960B

AIME202599.80

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

OpenAI o4 - mini

AIME202599.50

AIME 202498.70

MATH-5000.00

GSM8K0.00

不开源

GLM-4.6

3550B

AIME202598.60

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

Kimi K2.5

10000B

AIME202596.10

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

GLM-4.7

3580B

AIME202595.70

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

DeepSeek V3.2

6710B

AIME202593.10

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

o3-pro

AIME202593.00

AIME 202493.00

MATH-5000.00

GSM8K0.00

不开源

Qwen3-235B-A22B-Thinking-2507

2350B

AIME202592.30

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

DeepSeek-V3.1 Terminus

6710B

AIME202590.00

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

DeepSeek V3.2-Exp

6710B

AIME202589.30

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

DeepSeek-V3.1

6710B

AIME202588.40

AIME 202493.10

MATH-5000.00

GSM8K0.00

Free commercial

DeepSeek-R1-0528

6710B

AIME202587.50

AIME 202491.40

MATH-50098.00

GSM8K0.00

Free commercial

MiniMax M2.5

2290B

AIME202586.30

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

Intern-S1

2410B

AIME202586.00

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

Gemini-2.5-Pro-Preview-05-06

AIME202583.00

AIME 202492.00

MATH-50098.80

GSM8K0.00

不开源

Step3

3210B

AIME202582.90

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

Qwen3-235B-A22B

2350B

AIME202581.50

AIME 202485.70

MATH-50098.00

GSM8K96.40

Free commercial

M2.1

2300B

AIME202581.00

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

MiniMax M2

2300B

AIME202578.00

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

Grok 3

AIME202577.10

AIME 202484.20

MATH-5000.00

GSM8K0.00

不开源

MiniMax-M1-80k

4560B

AIME202576.90

AIME 202486.00

MATH-50096.80

GSM8K0.00

Free commercial

Claude Opus 4

AIME202575.50

AIME 202476.00

MATH-50098.20

GSM8K0.00

不开源

Kimi K2 0905

10000B

AIME202575.20

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

MiniMax-M1-40k

4560B

AIME202574.60

AIME 202483.30

MATH-50096.00

GSM8K0.00

Free commercial

Gemini 2.5 Flash

AIME202572.00

AIME 202488.00

MATH-5000.00

GSM8K0.00

不开源

Qwen3-235B-A22B-2507

2350B

AIME202570.30

AIME 20240.00

MATH-5000.00

GSM8K0.00

Free commercial

DeepSeek-R1

6710B

AIME202570.00

AIME 202479.80

MATH-50097.30

GSM8K0.00

Free commercial

Magistral-Medium-2506

AIME202564.95

AIME 202473.59

MATH-5000.00

GSM8K0.00

不开源

Gemini 2.5 Flash-Lite

AIME202563.10

AIME 20240.00

MATH-5000.00

GSM8K0.00

不开源

Claude Sonnet 3.7

AIME202554.80

AIME 202423.30

MATH-50082.20

GSM8K0.00

不开源