AIME2025 评测基准详情

随着大语言模型(LLM)的发展越来越快,我们需要更好的方法来评估它们到底有多“聪明”,特别是在处理复杂数学问题的时候。AIME 2025 就是这样一个工具,它专门用来测试当前 AI 在高等数学推理方面的真实水平。

AIME2025 大模型得分排行榜

数据来源:DataLearnerAI

AIME2025详细排名数据表格

排名
模型
得分
发布时间
参数(亿)
1
OpenAI Logo
GPT-5-Pro thinking + 使用工具
100.0
2025-08-07
0.0
AIME2025得分 100.0
发布时间 2025-08-07
参数(亿) 0.0
查看模型详情
2
100.0
2025-07-10
0.0
AIME2025得分 100.0
发布时间 2025-07-10
参数(亿) 0.0
查看模型详情
3
OpenAI Logo
GPT-5 thinking + 使用工具
99.6
2025-08-07
0.0
AIME2025得分 99.6
发布时间 2025-08-07
参数(亿) 0.0
查看模型详情
4
OpenAI Logo
OpenAI o4 - mini thinking + 使用工具
99.5
2025-04-16
未知
AIME2025得分 99.5
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
5
Google Deep Mind Logo
Gemini 2.5 Deep Think deeper_thinking
99.2
2025-08-01
0.0
AIME2025得分 99.2
发布时间 2025-08-01
参数(亿) 0.0
查看模型详情
6
OpenAI Logo
GPT OSS 20B thinking + 使用工具
98.7
2025-08-06
210.0
AIME2025得分 98.7
发布时间 2025-08-06
参数(亿) 210.0
查看模型详情
7
OpenAI Logo
GPT OSS 120B thinking + 使用工具
97.9
2025-08-06
117.0
AIME2025得分 97.9
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
8
OpenAI Logo
GPT-5-Pro thinking
96.7
2025-08-07
0.0
AIME2025得分 96.7
发布时间 2025-08-07
参数(亿) 0.0
查看模型详情
9
OpenAI Logo
GPT-5 thinking
94.6
2025-08-07
0.0
AIME2025得分 94.6
发布时间 2025-08-07
参数(亿) 0.0
查看模型详情
10
93.0
2025-06-10
未知
AIME2025得分 93.0
发布时间 2025-06-10
参数(亿) 未知
查看模型详情
11
92.7
2025-04-16
未知
AIME2025得分 92.7
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
12
92.3
2025-07-30
305.0
AIME2025得分 92.3
发布时间 2025-07-30
参数(亿) 305.0
查看模型详情
13
92.3
2025-07-25
2350.0
AIME2025得分 92.3
发布时间 2025-07-25
参数(亿) 2350.0
查看模型详情
14
xAI Logo
Grok 4 thinking
91.7
2025-07-10
0.0
AIME2025得分 91.7
发布时间 2025-07-10
参数(亿) 0.0
查看模型详情
15
OpenAI Logo
OpenAI o3 thinking
88.9
2025-04-16
0.0
AIME2025得分 88.9
发布时间 2025-04-16
参数(亿) 0.0
查看模型详情
16
Google Deep Mind Logo
Gemini-2.5-Pro thinking
88.0
2025-06-05
0.0
AIME2025得分 88.0
发布时间 2025-06-05
参数(亿) 0.0
查看模型详情
17
87.5
2025-05-28
6710.0
AIME2025得分 87.5
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情
18
86.9
2025-03-25
0.0
AIME2025得分 86.9
发布时间 2025-03-25
参数(亿) 0.0
查看模型详情
19
OpenAI Logo
OpenAI o3-mini thinking
86.5
2025-01-31
0.0
AIME2025得分 86.5
发布时间 2025-01-31
参数(亿) 0.0
查看模型详情
20
86.0
2025-07-27
2410.0
AIME2025得分 86.0
发布时间 2025-07-27
参数(亿) 2410.0
查看模型详情
21
OpenAI Logo
GPT OSS 120B thinking
83.0
2025-08-06
117.0
AIME2025得分 83.0
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
22
83.0
2025-05-06
未知
AIME2025得分 83.0
发布时间 2025-05-06
参数(亿) 未知
查看模型详情
23
82.9
2025-07-31
3210.0
AIME2025得分 82.9
发布时间 2025-07-31
参数(亿) 3210.0
查看模型详情
24
81.5
2025-04-28
2350.0
AIME2025得分 81.5
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
25
81.3
2025-08-06
40.0
AIME2025得分 81.3
发布时间 2025-08-06
参数(亿) 40.0
查看模型详情
26
OpenAI Logo
GPT OSS 20B thinking
79.0
2025-08-06
210.0
AIME2025得分 79.0
发布时间 2025-08-06
参数(亿) 210.0
查看模型详情
27
Anthropic Logo
Claude Opus 4.1 thinking + 使用工具
78.0
2025-08-06
0.0
AIME2025得分 78.0
发布时间 2025-08-06
参数(亿) 0.0
查看模型详情
28
77.1
2025-02-17
未知
AIME2025得分 77.1
发布时间 2025-02-17
参数(亿) 未知
查看模型详情
29
76.9
2025-06-16
4560.0
AIME2025得分 76.9
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
30
76.8
2025-06-27
800.0
AIME2025得分 76.8
发布时间 2025-06-27
参数(亿) 800.0
查看模型详情
31
75.5
2025-05-23
未知
AIME2025得分 75.5
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
32
75.3
2025-08-04
70.0
AIME2025得分 75.3
发布时间 2025-08-04
参数(亿) 70.0
查看模型详情
33
74.6
2025-06-16
4560.0
AIME2025得分 74.6
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
34
阿里巴巴 Logo
Qwen3-32B thinking
72.9
2025-04-28
320.0
AIME2025得分 72.9
发布时间 2025-04-28
参数(亿) 320.0
查看模型详情
35
72.9
2025-04-28
320.0
AIME2025得分 72.9
发布时间 2025-04-28
参数(亿) 320.0
查看模型详情
36
70.5
2025-05-23
未知
AIME2025得分 70.5
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
37
70.3
2025-07-21
2350.0
AIME2025得分 70.3
发布时间 2025-07-21
参数(亿) 2350.0
查看模型详情
38
70.0
2025-01-20
6710.0
AIME2025得分 70.0
发布时间 2025-01-20
参数(亿) 6710.0
查看模型详情
39
68.1
2025-06-30
719.0
AIME2025得分 68.1
发布时间 2025-06-30
参数(亿) 719.0
查看模型详情
40
阿里巴巴 Logo
Qwen3-8B thinking
67.3
2025-04-28
80.0
AIME2025得分 67.3
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
41
64.95
2025-06-10
未知
AIME2025得分 64.95
发布时间 2025-06-10
参数(亿) 未知
查看模型详情
42
63.1
2025-06-17
未知
AIME2025得分 63.1
发布时间 2025-06-17
参数(亿) 未知
查看模型详情
43
62.76
2025-06-10
240.0
AIME2025得分 62.76
发布时间 2025-06-10
参数(亿) 240.0
查看模型详情
44
61.9
2025-08-07
0.0
AIME2025得分 61.9
发布时间 2025-08-07
参数(亿) 0.0
查看模型详情
45
61.3
2025-07-29
305.0
AIME2025得分 61.3
发布时间 2025-07-29
参数(亿) 305.0
查看模型详情
46
54.8
2025-02-25
未知
AIME2025得分 54.8
发布时间 2025-02-25
参数(亿) 未知
查看模型详情
47
54.0
2025-07-11
10000.0
AIME2025得分 54.0
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
48
47.7
2025-03-24
6810.0
AIME2025得分 47.7
发布时间 2025-03-24
参数(亿) 6810.0
查看模型详情
49
47.4
2025-08-06
40.0
AIME2025得分 47.4
发布时间 2025-08-06
参数(亿) 40.0
查看模型详情
50
46.6
2025-04-17
未知
AIME2025得分 46.6
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
51
OpenAI Logo
GPT-4o normal + 使用工具
42.1
2024-05-13
0.0
AIME2025得分 42.1
发布时间 2024-05-13
参数(亿) 0.0
查看模型详情
52
36.7
2025-04-14
未知
AIME2025得分 36.7
发布时间 2025-04-14
参数(亿) 未知
查看模型详情
53
35.1
2025-06-30
3000.0
AIME2025得分 35.1
发布时间 2025-06-30
参数(亿) 3000.0
查看模型详情
54
35.1
2025-06-30
4240.0
AIME2025得分 35.1
发布时间 2025-06-30
参数(亿) 4240.0
查看模型详情
55
29.7
2024-12-11
未知
AIME2025得分 29.7
发布时间 2024-12-11
参数(亿) 未知
查看模型详情
56
26.7
2025-03-27
0.0
AIME2025得分 26.7
发布时间 2025-03-27
参数(亿) 0.0
查看模型详情
57
24.7
2025-04-28
2350.0
AIME2025得分 24.7
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
58
21.6
2025-04-28
305.0
AIME2025得分 21.6
发布时间 2025-04-28
参数(亿) 305.0
查看模型详情
59
20.9
2025-04-28
80.0
AIME2025得分 20.9
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
60
0.0
2025-08-07
0.0
AIME2025得分 0.0
发布时间 2025-08-07
参数(亿) 0.0
查看模型详情
61
0.0
2025-05-06
未知
AIME2025得分 0.0
发布时间 2025-05-06
参数(亿) 未知
查看模型详情