大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集，对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-05-02 07:14:49

截至 2026年5月，本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准，聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

基准评测

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 AIME2025 排序

当前 SOTA

Kimi K2 Thinking

Moonshot AI

100.00AIME2025

查看详情

最佳开源

Kimi K2 Thinking

Moonshot AI

100.00AIME2025

查看详情

最佳国产

Kimi K2 Thinking

Moonshot AI

100.00AIME2025

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	Kimi K2 Thinking 并行 · 开启思考工具 Moonshot AI	100.00	—	—	—	免费商用	详情
	Claude Sonnet 4.5 开启思考工具 Anthropic	100.00	—	—	—	闭源	详情
	GPT-5-Pro 开启思考工具 OpenAI	100.00	—	—	—	闭源	详情
4	Grok 4 Heavy 并行 · 开启思考 xAI	100.00	—	—	—	闭源	详情
5	GPT-5.2 思考水平 · 极高 OpenAI	100.00	—	—	—	闭源	详情
6	Step 3.5 Flash 开启思考工具 StepFunAI	99.80	—	—	—	免费商用	详情
7	Claude Opus 4.6 扩展思考 Anthropic	99.79	—	97.60	—	闭源	详情
8	Gemini 3.0 Flash 开启思考工具 Google Deep Mind	99.70	—	—	—	闭源	详情
9	GPT-5 开启思考工具 OpenAI	99.60	—	—	—	闭源	详情
10	OpenAI o4 - mini 开启思考工具 OpenAI	99.50	—	—	—	闭源	详情
11	Gemini 2.5 Deep Think 深度思考模式 Google Deep Mind	99.20	—	—	—	闭源	详情
12	Kimi K2 Thinking 开启思考工具 Moonshot AI	99.10	—	—	—	免费商用	详情
13	Grok 4 开启思考工具 xAI	98.80	—	—	—	闭源	详情
14	GPT OSS 20B 开启思考工具 OpenAI	98.70	—	—	—	免费商用	详情
15	GLM-4.6 开启思考智谱AI	98.60	—	—	—	免费商用	详情
16	GLM-4.6 开启思考工具智谱AI	98.60	—	—	—	免费商用	详情
17	GPT OSS 120B 开启思考工具 OpenAI	97.90	—	—	—	免费商用	详情
18	Step 3.5 Flash 开启思考 StepFunAI	97.30	—	—	—	免费商用	详情
19	GPT-5-Pro 开启思考 OpenAI	96.70	14.60	—	—	闭源	详情
20	Haiku 4.5 开启思考工具 Anthropic	96.30	—	—	—	闭源	详情
21	Kimi K2.5 开启思考 Moonshot AI	96.10	—	—	—	免费商用	详情
22	DeepSeek V3.2 Speciale 开启思考 DeepSeek-AI	96.00	—	—	—	免费商用	详情
23	GLM-4.7 开启思考智谱AI	95.70	—	—	—	免费商用	详情
24	Gemini 3.0 Flash 开启思考 Google Deep Mind	95.20	—	—	—	闭源	详情
25	Gemini 3.0 Pro (Preview 11-2025) 开启思考 Google Deep Mind	95.00	18.80	—	—	闭源	详情
26	GPT-5 开启思考 OpenAI	94.60	—	—	—	闭源	详情
27	Kimi K2 Thinking 开启思考 Moonshot AI	94.50	—	—	—	免费商用	详情
28	GPT-5.1 思考水平 · 高 OpenAI	94.00	—	—	—	闭源	详情
29	GPT-5.1 开启思考 OpenAI	94.00	—	—	—	闭源	详情
30	DeepSeek V3.2 开启思考 DeepSeek-AI	93.10	2.10	—	—	免费商用	详情
31	o3-pro OpenAI	93.00	—	—	—	闭源	详情
32	OpenAI o4 - mini 开启思考 OpenAI	92.70	—	—	—	闭源	详情
33	Qwen3-235B-A22B-Thinking 开启思考阿里巴巴	92.30	—	—	—	免费商用	详情
34	Qwen3-235B-A22B-Thinking-2507 开启思考阿里巴巴	92.30	—	—	—	免费商用	详情
35	Grok 4 Fast 开启思考 xAI	92.00	—	—	—	闭源	详情
36	Grok 4 开启思考 xAI	91.70	—	—	—	闭源	详情
37	GLM-4.7-Flash 开启思考智谱AI	91.60	—	—	—	免费商用	详情
38	DeepSeek-V3.1 Terminus 开启思考 DeepSeek-AI	90.00	—	—	—	免费商用	详情
39	DeepSeek V3.2-Exp 开启思考 DeepSeek-AI	89.30	—	—	—	免费商用	详情
40	Grok 4.1 Fast 开启思考 xAI	89.00	—	—	—	闭源	详情
41	OpenAI o3 开启思考 OpenAI	88.90	—	—	—	闭源	详情
42	DeepSeek-V3.1 开启思考 DeepSeek-AI	88.40	—	—	—	免费商用	详情
43	Gemini 2.5-Pro 开启思考 Google Deep Mind	88.00	—	—	—	闭源	详情
44	DeepSeek-R1-0528 开启思考 DeepSeek-AI	87.50	—	98.00	—	免费商用	详情
45	Claude Sonnet 4.5 开启思考 Anthropic	87.00	—	—	—	闭源	详情
46	Gemini 2.5 Pro Experimental 03-25 Google Deep Mind	86.90	—	—	—	闭源	详情
47	OpenAI o3-mini 开启思考 OpenAI	86.50	—	95.80	—	闭源	详情
48	MiniMax M2.5 开启思考 MiniMaxAI	86.30	—	—	—	免费商用	详情
49	Intern-S1 上海人工智能实验室	86.00	—	—	—	免费商用	详情
50	Claude Sonnet 4 深度思考模式工具 Anthropic	85.00	—	—	—	闭源	详情

Kimi K2 Thinking Moonshot AI

并行 · 开启思考工具

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Claude Sonnet 4.5 Anthropic

开启思考工具

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

GPT-5-Pro OpenAI

开启思考工具

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Grok 4 Heavy xAI

并行 · 开启思考

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

GPT-5.2 OpenAI

思考水平 · 极高

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Step 3.5 Flash StepFunAI

开启思考工具

AIME202599.80

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Claude Opus 4.6 Anthropic

扩展思考

AIME202599.79

FrontierMath - Tier 4—

MATH-50097.60

GSM8K—

闭源

Gemini 3.0 Flash Google Deep Mind

开启思考工具

AIME202599.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

GPT-5 OpenAI

开启思考工具

AIME202599.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

OpenAI o4 - mini OpenAI

开启思考工具

AIME202599.50

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Gemini 2.5 Deep Think Google Deep Mind

深度思考模式

AIME202599.20

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Kimi K2 Thinking Moonshot AI

开启思考工具

AIME202599.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Grok 4 xAI

开启思考工具

AIME202598.80

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

GPT OSS 20B OpenAI

开启思考工具

AIME202598.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

GLM-4.6 智谱AI

开启思考

AIME202598.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

GLM-4.6 智谱AI

开启思考工具

AIME202598.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

GPT OSS 120B OpenAI

开启思考工具

AIME202597.90

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Step 3.5 Flash StepFunAI

开启思考

AIME202597.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

GPT-5-Pro OpenAI

开启思考

AIME202596.70

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

闭源

Haiku 4.5 Anthropic

开启思考工具

AIME202596.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Kimi K2.5 Moonshot AI

开启思考

AIME202596.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

DeepSeek V3.2 Speciale DeepSeek-AI

开启思考

AIME202596.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

GLM-4.7 智谱AI

开启思考

AIME202595.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Gemini 3.0 Flash Google Deep Mind

开启思考

AIME202595.20

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

开启思考

AIME202595.00

FrontierMath - Tier 418.80

MATH-500—

GSM8K—

闭源

GPT-5 OpenAI

开启思考

AIME202594.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Kimi K2 Thinking Moonshot AI

开启思考

AIME202594.50

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

GPT-5.1 OpenAI

思考水平 · 高

AIME202594.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

GPT-5.1 OpenAI

开启思考

AIME202594.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

DeepSeek V3.2 DeepSeek-AI

开启思考

AIME202593.10

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

免费商用

o3-pro OpenAI

AIME202593.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

OpenAI o4 - mini OpenAI

开启思考

AIME202592.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Qwen3-235B-A22B-Thinking 阿里巴巴

开启思考

AIME202592.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Qwen3-235B-A22B-Thinking-2507 阿里巴巴

开启思考

AIME202592.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Grok 4 Fast xAI

开启思考

AIME202592.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Grok 4 xAI

开启思考

AIME202591.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

GLM-4.7-Flash 智谱AI

开启思考

AIME202591.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

DeepSeek-V3.1 Terminus DeepSeek-AI

开启思考

AIME202590.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

DeepSeek V3.2-Exp DeepSeek-AI

开启思考

AIME202589.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Grok 4.1 Fast xAI

开启思考

AIME202589.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

OpenAI o3 OpenAI

开启思考

AIME202588.90

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

DeepSeek-V3.1 DeepSeek-AI

开启思考

AIME202588.40

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Gemini 2.5-Pro Google Deep Mind

开启思考

AIME202588.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

DeepSeek-R1-0528 DeepSeek-AI

开启思考

AIME202587.50

FrontierMath - Tier 4—

MATH-50098.00

GSM8K—

免费商用

Claude Sonnet 4.5 Anthropic

开启思考

AIME202587.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

Gemini 2.5 Pro Experimental 03-25 Google Deep Mind

AIME202586.90

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

OpenAI o3-mini OpenAI

开启思考

AIME202586.50

FrontierMath - Tier 4—

MATH-50095.80

GSM8K—

闭源

MiniMax M2.5 MiniMaxAI

开启思考

AIME202586.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Intern-S1 上海人工智能实验室

AIME202586.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

免费商用

Claude Sonnet 4 Anthropic

深度思考模式工具

AIME202585.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

闭源

排序：

已显示 50 / 221 个模型查看 AIME2025 基准测试完整页面