大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 AIME 2025、FrontierMath-Tier4、MATH-500、GSM8K 等权威数学基准数据集，对包括 OpenAI 的 GPT、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek 等模型进行评测。

数据更新于 2026-05-02 07:14:49

截至 2026年5月，本页覆盖 AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K 等评测基准，聚焦 大模型数学推理能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

基准评测

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 FrontierMath - Tier 4 排序

当前 SOTA

GPT-5.5 Pro

OpenAI

39.60FrontierMath - Tier 4

查看详情

最佳开源

Kimi K2.5

Moonshot AI

4.20FrontierMath - Tier 4−35.40

查看详情

最佳国产

Kimi K2.5

Moonshot AI

4.20FrontierMath - Tier 4−35.40

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型					开源情况
	GPT-5.5 Pro 思考水平 · 极高工具 OpenAI	—	39.60	—	—	闭源	详情
	GPT-5.5 Pro 开启思考 OpenAI	—	39.60	—	—	闭源	详情
	GPT-5.5 Pro 思考水平 · 极高 OpenAI	—	39.60	—	—	闭源	详情
4	GPT-5.4 Pro 开启思考 OpenAI	—	38.00	—	—	闭源	详情
5	GPT-5.4 Pro 常规模式工具联网 OpenAI	—	37.50	—	—	闭源	详情
6	GPT-5.4 Pro 思考水平 · 极高 OpenAI	—	37.50	—	—	闭源	详情
7	GPT-5.5 思考水平 · 极高 OpenAI	—	35.40	—	—	闭源	详情
8	GPT-5.5 开启思考工具 OpenAI	—	35.40	—	—	闭源	详情
9	GPT-5.2 Pro 常规模式工具联网 OpenAI	—	31.30	—	—	闭源	详情
10	GPT-5.2 Pro 开启思考 OpenAI	—	31.30	—	—	闭源	详情
11	GPT-5.4 思考水平 · 极高 OpenAI	—	27.10	—	—	闭源	详情
12	Opus 4.7 思考水平 · 极高 Anthropic	—	22.90	—	—	闭源	详情
13	Claude Opus 4.6 思考水平 · 高 Anthropic	—	22.90	—	—	闭源	详情
14	Claude Opus 4.6 开启思考 Anthropic	—	20.80	—	—	闭源	详情
15	Claude Opus 4.6 开启思考 Anthropic	—	20.80	—	—	闭源	详情
16	Gemini 3.0 Pro (Preview 11-2025) 开启思考 Google Deep Mind	95.00	18.80	—	—	闭源	详情
17	GPT-5.2 思考水平 · 极高 OpenAI	—	18.80	—	—	闭源	详情
18	GPT-5.2 开启思考 OpenAI	—	18.80	—	—	闭源	详情
19	Gemini 3.0 Pro (Preview 11-2025) Google Deep Mind	—	18.80	—	—	闭源	详情
20	Gemini 3.1 Pro Preview 开启思考 Google Deep Mind	—	16.70	—	—	闭源	详情
21	Gemini 3.1 Pro Preview Google Deep Mind	—	16.70	—	—	闭源	详情
22	GPT-5.2 开启思考 OpenAI	—	16.70	—	—	闭源	详情
23	GPT-5-Pro 开启思考 OpenAI	96.70	14.60	—	—	闭源	详情
24	Muse Spark Facebook AI研究实验室	—	14.60	—	—	闭源	详情
25	Muse Spark 开启思考 Facebook AI研究实验室	—	14.60	—	—	闭源	详情
26	Claude Opus 4.6 开启思考 Anthropic	—	14.60	—	—	闭源	详情
27	GPT-5.2 思考水平 · 极高工具 OpenAI	—	14.60	—	—	闭源	详情
28	GPT-5-Pro OpenAI	—	14.60	—	—	闭源	详情
29	GPT-5.1 开启思考 OpenAI	—	12.50	—	—	闭源	详情
30	GPT-5.1 开启思考工具 OpenAI	—	12.50	—	—	闭源	详情
31	GPT-5 开启思考 OpenAI	—	12.50	—	—	闭源	详情
32	Gemini 2.5 Deep Think Google Deep Mind	—	10.40	—	—	闭源	详情
33	Gemini 2.5 Pro Deep Think 深度思考模式 Google Deep Mind	—	10.40	—	—	闭源	详情
34	Claude Sonnet 4.6 开启思考 Anthropic	—	8.30	—	—	闭源	详情
35	OpenAI o4 - mini 开启思考 OpenAI	—	6.30	—	—	闭源	详情
36	GPT-5 开启思考 OpenAI	—	6.30	—	—	闭源	详情
37	GPT-5-mini 开启思考 OpenAI	—	6.30	—	—	闭源	详情
38	GPT-5.2 开启思考 OpenAI	—	6.30	—	—	闭源	详情
39	GPT-5.4 nano 开启思考 OpenAI	—	6.30	—	—	闭源	详情
40	Opus 4.1 扩展思考 Anthropic	78.00	4.20	—	—	闭源	详情
41	OpenAI o3-mini 开启思考 OpenAI	—	4.20	—	—	闭源	详情
42	OpenAI o3-mini (high) 思考水平 · 高 OpenAI	—	4.20	—	—	闭源	详情
43	Gemini 2.5 Pro Experimental 03-25 Google Deep Mind	—	4.20	—	—	闭源	详情
44	Gemini 2.5 Flash Google Deep Mind	—	4.20	—	—	闭源	详情
45	Claude Opus 4 开启思考 Anthropic	—	4.20	—	—	闭源	详情
46	Claude Opus 4 开启思考 Anthropic	—	4.20	—	—	闭源	详情
47	GPT-5-mini 开启思考 OpenAI	—	4.20	—	—	闭源	详情
48	Opus 4.1 开启思考 Anthropic	—	4.20	—	—	闭源	详情
49	Kimi K2.5 Moonshot AI	—	4.20	—	—	免费商用	详情
50	Opus 4.5 开启思考 Anthropic	—	4.20	—	—	闭源	详情

GPT-5.5 Pro OpenAI

思考水平 · 极高工具

AIME2025—

FrontierMath - Tier 439.60

MATH-500—

GSM8K—

闭源

GPT-5.5 Pro OpenAI

开启思考

AIME2025—

FrontierMath - Tier 439.60

MATH-500—

GSM8K—

闭源

GPT-5.5 Pro OpenAI

思考水平 · 极高

AIME2025—

FrontierMath - Tier 439.60

MATH-500—

GSM8K—

闭源

GPT-5.4 Pro OpenAI

开启思考

AIME2025—

FrontierMath - Tier 438.00

MATH-500—

GSM8K—

闭源

GPT-5.4 Pro OpenAI

常规模式工具联网

AIME2025—

FrontierMath - Tier 437.50

MATH-500—

GSM8K—

闭源

GPT-5.4 Pro OpenAI

思考水平 · 极高

AIME2025—

FrontierMath - Tier 437.50

MATH-500—

GSM8K—

闭源

GPT-5.5 OpenAI

思考水平 · 极高

AIME2025—

FrontierMath - Tier 435.40

MATH-500—

GSM8K—

闭源

GPT-5.5 OpenAI

开启思考工具

AIME2025—

FrontierMath - Tier 435.40

MATH-500—

GSM8K—

闭源

GPT-5.2 Pro OpenAI

常规模式工具联网

AIME2025—

FrontierMath - Tier 431.30

MATH-500—

GSM8K—

闭源

GPT-5.2 Pro OpenAI

开启思考

AIME2025—

FrontierMath - Tier 431.30

MATH-500—

GSM8K—

闭源

GPT-5.4 OpenAI

思考水平 · 极高

AIME2025—

FrontierMath - Tier 427.10

MATH-500—

GSM8K—

闭源

Opus 4.7 Anthropic

思考水平 · 极高

AIME2025—

FrontierMath - Tier 422.90

MATH-500—

GSM8K—

闭源

Claude Opus 4.6 Anthropic

思考水平 · 高

AIME2025—

FrontierMath - Tier 422.90

MATH-500—

GSM8K—

闭源

Claude Opus 4.6 Anthropic

开启思考

AIME2025—

FrontierMath - Tier 420.80

MATH-500—

GSM8K—

闭源

Claude Opus 4.6 Anthropic

开启思考

AIME2025—

FrontierMath - Tier 420.80

MATH-500—

GSM8K—

闭源

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

开启思考

AIME202595.00

FrontierMath - Tier 418.80

MATH-500—

GSM8K—

闭源

GPT-5.2 OpenAI

思考水平 · 极高

AIME2025—

FrontierMath - Tier 418.80

MATH-500—

GSM8K—

闭源

GPT-5.2 OpenAI

开启思考

AIME2025—

FrontierMath - Tier 418.80

MATH-500—

GSM8K—

闭源

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

AIME2025—

FrontierMath - Tier 418.80

MATH-500—

GSM8K—

闭源

Gemini 3.1 Pro Preview Google Deep Mind

开启思考

AIME2025—

FrontierMath - Tier 416.70

MATH-500—

GSM8K—

闭源

Gemini 3.1 Pro Preview Google Deep Mind

AIME2025—

FrontierMath - Tier 416.70

MATH-500—

GSM8K—

闭源

GPT-5.2 OpenAI

开启思考

AIME2025—

FrontierMath - Tier 416.70

MATH-500—

GSM8K—

闭源

GPT-5-Pro OpenAI

开启思考

AIME202596.70

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

闭源

Muse Spark Facebook AI研究实验室

AIME2025—

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

闭源

Muse Spark Facebook AI研究实验室

开启思考

AIME2025—

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

闭源

Claude Opus 4.6 Anthropic

开启思考

AIME2025—

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

闭源

GPT-5.2 OpenAI

思考水平 · 极高工具

AIME2025—

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

闭源

GPT-5-Pro OpenAI

AIME2025—

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

闭源

GPT-5.1 OpenAI

开启思考

AIME2025—

FrontierMath - Tier 412.50

MATH-500—

GSM8K—

闭源

GPT-5.1 OpenAI

开启思考工具

AIME2025—

FrontierMath - Tier 412.50

MATH-500—

GSM8K—

闭源

GPT-5 OpenAI

开启思考

AIME2025—

FrontierMath - Tier 412.50

MATH-500—

GSM8K—

闭源

Gemini 2.5 Deep Think Google Deep Mind

AIME2025—

FrontierMath - Tier 410.40

MATH-500—

GSM8K—

闭源

Gemini 2.5 Pro Deep Think Google Deep Mind

深度思考模式

AIME2025—

FrontierMath - Tier 410.40

MATH-500—

GSM8K—

闭源

Claude Sonnet 4.6 Anthropic

开启思考

AIME2025—

FrontierMath - Tier 48.30

MATH-500—

GSM8K—

闭源

OpenAI o4 - mini OpenAI

开启思考

AIME2025—

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

闭源

GPT-5 OpenAI

开启思考

AIME2025—

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

闭源

GPT-5-mini OpenAI

开启思考

AIME2025—

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

闭源

GPT-5.2 OpenAI

开启思考

AIME2025—

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

闭源

GPT-5.4 nano OpenAI

开启思考

AIME2025—

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

闭源

Opus 4.1 Anthropic

扩展思考

AIME202578.00

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

闭源

OpenAI o3-mini OpenAI

开启思考

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

闭源

OpenAI o3-mini (high)OpenAI

思考水平 · 高

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

闭源

Gemini 2.5 Pro Experimental 03-25 Google Deep Mind

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

闭源

Gemini 2.5 Flash Google Deep Mind

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

闭源

Claude Opus 4 Anthropic

开启思考

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

闭源

Claude Opus 4 Anthropic

开启思考

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

闭源

GPT-5-mini OpenAI

开启思考

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

闭源

Opus 4.1 Anthropic

开启思考

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

闭源

Kimi K2.5 Moonshot AI

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

免费商用

Opus 4.5 Anthropic

开启思考

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

闭源

排序：

已显示 50 / 221 个模型查看 FrontierMath - Tier 4 基准测试完整页面