AIME2025 评测基准详情

459

随着大语言模型(LLM)的发展越来越快,我们需要更好的方法来评估它们到底有多“聪明”,特别是在处理复杂数学问题的时候。AIME 2025 就是这样一个工具,它专门用来测试当前 AI 在高等数学推理方面的真实水平。

模型模式说明

不同模式会显著影响成绩,请在对比榜单时留意标签提示。

提示:若某条记录未显示任何标签,即默认是 normal 常规模式。

normal

常规推理:单步推理,不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列:常规延长思考时间,low/medium/high 代表不同耗时或深度,各厂商叫法不同。

deeper thinking

Deeper thinking:在 Thinking 基础上进一步延长思考链条,通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考:多线程/多代理协同探索再汇总,通常只在厂商内部实验环境中启用、尚未对外开放,因此被视为“作弊”模式。

AIME2025 大模型得分排行榜

数据来源:DataLearnerAI

AIME2025详细排名数据表格

默认:仅展示常规/非并行的评测结果,可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名
模型
得分
发布时间
参数(亿)
1
OpenAI Logo
GPT-5-Pro thinking + 使用工具
100.0
2025-08-07
未知
AIME2025得分 100.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
2
Anthropic Logo
Claude Sonnet 4.5 thinking + 使用工具
100.0
2025-09-30
未知
AIME2025得分 100.0
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
3
xAI Logo
Grok 4 Heavy parallel_thinking
100.0
2025-07-10
未知
AIME2025得分 100.0
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
4
Moonshot AI Logo
Kimi K2 Thinking parallel_thinking + 使用工具
100.0
2025-11-06
10400.0
AIME2025得分 100.0
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
5
OpenAI Logo
GPT-5 thinking + 使用工具
99.6
2025-08-07
未知
AIME2025得分 99.6
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
6
OpenAI Logo
OpenAI o4 - mini thinking + 使用工具
99.5
2025-04-16
未知
AIME2025得分 99.5
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
7
Google Deep Mind Logo
Gemini 2.5 Deep Think deeper_thinking
99.2
2025-08-01
未知
AIME2025得分 99.2
发布时间 2025-08-01
参数(亿) 未知
查看模型详情
8
Moonshot AI Logo
Kimi K2 Thinking thinking + 使用工具
99.1
2025-11-06
10400.0
AIME2025得分 99.1
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
9
xAI Logo
Grok 4 thinking + 使用工具
98.8
2025-07-10
未知
AIME2025得分 98.8
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
10
OpenAI Logo
GPT OSS 20B thinking + 使用工具
98.7
2025-08-06
210.0
AIME2025得分 98.7
发布时间 2025-08-06
参数(亿) 210.0
查看模型详情
11
智谱AI Logo
GLM-4.6 thinking
98.6
2025-09-30
3550.0
AIME2025得分 98.6
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
12
智谱AI Logo
GLM-4.6 thinking + 使用工具
98.6
2025-09-30
3550.0
AIME2025得分 98.6
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
13
OpenAI Logo
GPT OSS 120B thinking + 使用工具
97.9
2025-08-06
117.0
AIME2025得分 97.9
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
14
OpenAI Logo
GPT-5-Pro thinking
96.7
2025-08-07
未知
AIME2025得分 96.7
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
15
Anthropic Logo
Haiku 4.5 thinking + 使用工具
96.3
2025-10-15
未知
AIME2025得分 96.3
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
16
95.0
2025-11-18
未知
AIME2025得分 95.0
发布时间 2025-11-18
参数(亿) 未知
查看模型详情
17
OpenAI Logo
GPT-5 thinking
94.6
2025-08-07
未知
AIME2025得分 94.6
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
18
94.5
2025-11-06
10400.0
AIME2025得分 94.5
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
19
94.0
2025-11-12
未知
AIME2025得分 94.0
发布时间 2025-11-12
参数(亿) 未知
查看模型详情
20
93.0
2025-06-10
未知
AIME2025得分 93.0
发布时间 2025-06-10
参数(亿) 未知
查看模型详情
21
92.7
2025-04-16
未知
AIME2025得分 92.7
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
22
92.3
2025-07-25
2350.0
AIME2025得分 92.3
发布时间 2025-07-25
参数(亿) 2350.0
查看模型详情
23
92.3
2025-07-30
305.0
AIME2025得分 92.3
发布时间 2025-07-30
参数(亿) 305.0
查看模型详情
24
xAI Logo
Grok 4 Fast thinking
92.0
2025-09-19
未知
AIME2025得分 92.0
发布时间 2025-09-19
参数(亿) 未知
查看模型详情
25
xAI Logo
Grok 4 thinking
91.7
2025-07-10
未知
AIME2025得分 91.7
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
26
90.0
2025-09-22
6710.0
AIME2025得分 90.0
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
27
89.3
2025-09-29
6710.0
AIME2025得分 89.3
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
28
xAI Logo
Grok 4.1 Fast thinking
89.0
2025-11-19
未知
AIME2025得分 89.0
发布时间 2025-11-19
参数(亿) 未知
查看模型详情
29
OpenAI Logo
OpenAI o3 thinking
88.9
2025-04-16
未知
AIME2025得分 88.9
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
30
DeepSeek-AI Logo
DeepSeek-V3.1 thinking
88.4
2025-08-20
6710.0
AIME2025得分 88.4
发布时间 2025-08-20
参数(亿) 6710.0
查看模型详情
31
Google Deep Mind Logo
Gemini 2.5-Pro thinking
88.0
2025-06-05
未知
AIME2025得分 88.0
发布时间 2025-06-05
参数(亿) 未知
查看模型详情
32
87.5
2025-05-28
6710.0
AIME2025得分 87.5
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情
33
87.0
2025-09-30
未知
AIME2025得分 87.0
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
34
86.9
2025-03-25
未知
AIME2025得分 86.9
发布时间 2025-03-25
参数(亿) 未知
查看模型详情
35
OpenAI Logo
OpenAI o3-mini thinking
86.5
2025-01-31
未知
AIME2025得分 86.5
发布时间 2025-01-31
参数(亿) 未知
查看模型详情
36
86.0
2025-07-27
2410.0
AIME2025得分 86.0
发布时间 2025-07-27
参数(亿) 2410.0
查看模型详情
37
Anthropic Logo
Claude Sonnet 4 deeper_thinking + 使用工具
85.0
2025-05-23
未知
AIME2025得分 85.0
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
38
83.0
2025-05-06
未知
AIME2025得分 83.0
发布时间 2025-05-06
参数(亿) 未知
查看模型详情
39
OpenAI Logo
GPT OSS 120B thinking
83.0
2025-08-06
117.0
AIME2025得分 83.0
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
40
82.9
2025-07-31
3210.0
AIME2025得分 82.9
发布时间 2025-07-31
参数(亿) 3210.0
查看模型详情
41
81.5
2025-04-28
2350.0
AIME2025得分 81.5
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
42
81.3
2025-08-06
40.0
AIME2025得分 81.3
发布时间 2025-08-06
参数(亿) 40.0
查看模型详情
43
Anthropic Logo
Haiku 4.5 thinking
80.7
2025-10-15
未知
AIME2025得分 80.7
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
44
80.6
2025-09-05
未知
AIME2025得分 80.6
发布时间 2025-09-05
参数(亿) 未知
查看模型详情
45
OpenAI Logo
GPT OSS 20B thinking
79.0
2025-08-06
210.0
AIME2025得分 79.0
发布时间 2025-08-06
参数(亿) 210.0
查看模型详情
46
Anthropic Logo
Claude Opus 4.1 thinking + 使用工具
78.0
2025-08-06
未知
AIME2025得分 78.0
发布时间 2025-08-06
参数(亿) 未知
查看模型详情
47
MiniMaxAI Logo
MiniMax M2 thinking
78.0
2025-10-27
2300.0
AIME2025得分 78.0
发布时间 2025-10-27
参数(亿) 2300.0
查看模型详情
48
78.0
2025-08-06
未知
AIME2025得分 78.0
发布时间 2025-08-06
参数(亿) 未知
查看模型详情
49
77.1
2025-02-17
未知
AIME2025得分 77.1
发布时间 2025-02-17
参数(亿) 未知
查看模型详情
50
76.9
2025-06-16
4560.0
AIME2025得分 76.9
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
51
76.8
2025-06-27
800.0
AIME2025得分 76.8
发布时间 2025-06-27
参数(亿) 800.0
查看模型详情
52
75.5
2025-05-23
未知
AIME2025得分 75.5
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
53
75.3
2025-08-04
70.0
AIME2025得分 75.3
发布时间 2025-08-04
参数(亿) 70.0
查看模型详情
54
Moonshot AI Logo
Kimi K2 0905 thinking + 使用工具
75.2
2025-09-05
10000.0
AIME2025得分 75.2
发布时间 2025-09-05
参数(亿) 10000.0
查看模型详情
55
74.6
2025-06-16
4560.0
AIME2025得分 74.6
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
56
阿里巴巴 Logo
Qwen3-32B thinking
72.9
2025-04-28
320.0
AIME2025得分 72.9
发布时间 2025-04-28
参数(亿) 320.0
查看模型详情
57
72.9
2025-04-28
320.0
AIME2025得分 72.9
发布时间 2025-04-28
参数(亿) 320.0
查看模型详情
58
72.0
2025-04-17
未知
AIME2025得分 72.0
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
59
70.5
2025-05-23
未知
AIME2025得分 70.5
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
60
70.3
2025-07-21
2350.0
AIME2025得分 70.3
发布时间 2025-07-21
参数(亿) 2350.0
查看模型详情
61
70.0
2025-01-20
6710.0
AIME2025得分 70.0
发布时间 2025-01-20
参数(亿) 6710.0
查看模型详情
62
69.5
2025-09-11
800.0
AIME2025得分 69.5
发布时间 2025-09-11
参数(亿) 800.0
查看模型详情
63
68.1
2025-06-30
719.0
AIME2025得分 68.1
发布时间 2025-06-30
参数(亿) 719.0
查看模型详情
64
阿里巴巴 Logo
Qwen3-8B thinking
67.3
2025-04-28
80.0
AIME2025得分 67.3
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
65
64.95
2025-06-10
未知
AIME2025得分 64.95
发布时间 2025-06-10
参数(亿) 未知
查看模型详情
66
63.1
2025-06-17
未知
AIME2025得分 63.1
发布时间 2025-06-17
参数(亿) 未知
查看模型详情
67
62.76
2025-06-10
240.0
AIME2025得分 62.76
发布时间 2025-06-10
参数(亿) 240.0
查看模型详情
68
61.9
2025-08-07
未知
AIME2025得分 61.9
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
69
61.6
2025-04-17
未知
AIME2025得分 61.6
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
70
61.3
2025-07-29
305.0
AIME2025得分 61.3
发布时间 2025-07-29
参数(亿) 305.0
查看模型详情
71
58.0
2025-09-29
6710.0
AIME2025得分 58.0
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
72
54.8
2025-02-25
未知
AIME2025得分 54.8
发布时间 2025-02-25
参数(亿) 未知
查看模型详情
73
54.0
2025-09-22
6710.0
AIME2025得分 54.0
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
74
54.0
2025-07-11
10000.0
AIME2025得分 54.0
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
75
49.8
2025-08-20
6710.0
AIME2025得分 49.8
发布时间 2025-08-20
参数(亿) 6710.0
查看模型详情
76
47.7
2025-03-24
6710.0
AIME2025得分 47.7
发布时间 2025-03-24
参数(亿) 6710.0
查看模型详情
77
47.4
2025-08-06
40.0
AIME2025得分 47.4
发布时间 2025-08-06
参数(亿) 40.0
查看模型详情
78
OpenAI Logo
GPT-5-mini thinking
47.0
2025-08-07
未知
AIME2025得分 47.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
79
47.0
2025-08-07
未知
AIME2025得分 47.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
80
44.0
2025-09-30
3550.0
AIME2025得分 44.0
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
81
OpenAI Logo
GPT-4o normal + 使用工具
42.1
2024-05-13
未知
AIME2025得分 42.1
发布时间 2024-05-13
参数(亿) 未知
查看模型详情
82
39.0
2025-10-15
未知
AIME2025得分 39.0
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
83
38.0
2025-05-23
未知
AIME2025得分 38.0
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
84
37.0
2025-09-30
未知
AIME2025得分 37.0
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
85
36.7
2025-04-14
未知
AIME2025得分 36.7
发布时间 2025-04-14
参数(亿) 未知
查看模型详情
86
35.1
2025-06-30
3000.0
AIME2025得分 35.1
发布时间 2025-06-30
参数(亿) 3000.0
查看模型详情
87
35.1
2025-06-30
4240.0
AIME2025得分 35.1
发布时间 2025-06-30
参数(亿) 4240.0
查看模型详情
88
29.7
2024-12-11
未知
AIME2025得分 29.7
发布时间 2024-12-11
参数(亿) 未知
查看模型详情
89
26.7
2025-03-27
未知
AIME2025得分 26.7
发布时间 2025-03-27
参数(亿) 未知
查看模型详情
90
24.7
2025-04-28
2350.0
AIME2025得分 24.7
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
91
21.6
2025-04-28
305.0
AIME2025得分 21.6
发布时间 2025-04-28
参数(亿) 305.0
查看模型详情
92
20.9
2025-04-28
80.0
AIME2025得分 20.9
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
93
0.0
2025-05-06
未知
AIME2025得分 0.0
发布时间 2025-05-06
参数(亿) 未知
查看模型详情