AIME 2024

AIME 2024

AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。

英文 难度:高难度

主要统计信息

问题数量

15

机构

个人

类别

数学推理

评估指标

Accuracy

AIME 2024基准测试简介

2024年,美国数学邀请赛(AIME)成为评估大型语言模型(LLM)数学推理能力的重要基准。AIME是一项备受尊崇的考试,包含15道题,考试时间为3小时,旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。

AIME 2024 大模型得分排行榜

冠军
亚军
季军
其他排名

详细排名数据表格

模型简称 AIME 2024得分 发布机构 发布时间 参数规模(亿)
Grok-3 mini - Reasoning 96.0 xAI Logo 2025-02-18 未知
Grok 3.5 95.6 xAI Logo 2025-05-06 未知
OpenAI o4 - mini 93.4 OpenAI Logo 2025-04-16 未知
Grok-3 - Reasoning Beta 93.3 xAI Logo 2025-02-18 未知
o3-pro 93.0 OpenAI Logo 2025-06-10 未知
Gemini-2.5-Pro-Preview-06-05 92.0 Google Deep Mind Logo 2025-06-05 未知
Gemini 2.5 Pro Experimental 03-25 92.0 Google Deep Mind Logo 2025-03-25 0.0
Gemini-2.5-Pro-Preview-05-06 92.0 Google Deep Mind Logo 2025-05-06 未知
OpenAI o3 91.6 OpenAI Logo 2025-04-16 未知
DeepSeek-R1-0528 91.4 DeepSeek-AI Logo 2025-05-28 6850.0
Gemini 2.5 Flash 88.0 Google Deep Mind Logo 2025-04-17 未知
Hunyuan-A13B-Instruct 87.3 腾讯AI实验室 Logo 2025-06-27 800.0
OpenAI o3-mini (high) 87.0 OpenAI Logo 2025-01-31 未知
MiniMax-M1-80k 86.0 MiniMaxAI Logo 2025-06-16 4560.0
Qwen3-235B-A22B 85.7 阿里巴巴 Logo 2025-04-28 2350.0
Grok 3 84.2 xAI Logo 2025-02-17 未知
MiniMax-M1-40k 83.3 MiniMaxAI Logo 2025-06-16 4560.0
Pangu Embedded 81.9 华为 Logo 2025-06-30 70.0
Qwen3-32B 81.4 阿里巴巴 Logo 2025-04-28 220.0
Claude Sonnet 3.7-64K Extended Thinking 80.0 Anthropic Logo 2025-02-25 未知
DeepSeek-R1 79.8 DeepSeek-AI Logo 2025-01-20 6710.0
QwQ-32B 79.5 阿里巴巴 Logo 2025-03-06 325.0
Qwen3-8B 79.4 阿里巴巴 Logo 2025-04-28 80.0
OpenAI o1 79.2 OpenAI Logo 2024-12-05 未知
Pangu Pro MoE 79.2 华为 Logo 2025-06-30 719.0
Hunyuan-T1 78.2 腾讯AI实验室 Logo 2025-03-21 0.0
GLM-4-9B-Chat 76.4 智谱AI Logo 2024-06-05 90.0
Claude Opus 4 76.0 Anthropic Logo 2025-05-23 未知
Magistral-Medium-2506 73.59 MistralAI Logo 2025-06-10 未知
Magistral-Small-2506 70.68 MistralAI Logo 2025-06-10 240.0
Kimi K2 69.6 Moonshot AI Logo 2025-07-11 10000.0
OpenAI o1-mini 63.6 OpenAI Logo 2024-09-12 未知
DeepSeek-V3-0324 59.4 DeepSeek-AI Logo 2025-03-24 6810.0
ERNIE-4.5-300B-A47B 54.8 百度 Logo 2025-06-30 3000.0
DeepSeek-R1-Distill-Qwen-7B 53.3 DeepSeek-AI Logo 2025-01-20 70.0
Phi-4-instruct (reasoning-trained) 50.0 Microsoft Logo 2025-02-27 38.0
QwQ-32B-Preview 50.0 阿里巴巴 Logo 2024-11-28 320.0
GPT-4.1 mini 49.6 OpenAI Logo 2025-04-14 未知
GPT-4.1 48.1 OpenAI Logo 2025-04-14 未知
Claude Sonnet 4 43.4 Anthropic Logo 2025-05-23 未知
Grok 3 mini 40.0 xAI Logo 2025-02-18 未知
DeepSeek-V3 39.0 DeepSeek-AI Logo 2024-12-26 6810.0
GPT-4.5 36.7 OpenAI Logo 2025-02-28 未知
Gemini 2.0 Pro Experimental 36.0 DeepMind Logo 2025-02-05 未知
GPT-4.1 nano 29.4 OpenAI Logo 2025-04-14 未知
Gemma 3 - 27B (IT) 25.3 Google Deep Mind Logo 2025-03-12 270.0
Claude Sonnet 3.7 23.3 Anthropic Logo 2025-02-25 未知
Claude 3.5 Sonnet New 16.0 Anthropic Logo 2024-10-22 0.0
Phi-4-mini-instruct (3.8B) 10.0 Microsoft Logo 2025-02-27 38.0
GPT-4o 9.3 OpenAI Logo 2024-05-13 未知
得分:
96.0
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
95.6
发布时间:
2025-05-06
参数规模(亿):
未知
得分:
93.4
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
93.3
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
93.0
发布时间:
2025-06-10
参数规模(亿):
未知
得分:
92.0
发布时间:
2025-06-05
参数规模(亿):
未知
得分:
92.0
发布时间:
2025-03-25
参数规模(亿):
0.0
得分:
92.0
发布时间:
2025-05-06
参数规模(亿):
未知
得分:
91.6
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
91.4
发布时间:
2025-05-28
参数规模(亿):
6850.0
得分:
88.0
发布时间:
2025-04-17
参数规模(亿):
未知
得分:
87.3
发布时间:
2025-06-27
参数规模(亿):
800.0
得分:
87.0
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
86.0
发布时间:
2025-06-16
参数规模(亿):
4560.0
得分:
85.7
发布时间:
2025-04-28
参数规模(亿):
2350.0
得分:
84.2
发布时间:
2025-02-17
参数规模(亿):
未知
得分:
83.3
发布时间:
2025-06-16
参数规模(亿):
4560.0
得分:
81.9
发布时间:
2025-06-30
参数规模(亿):
70.0
得分:
81.4
发布时间:
2025-04-28
参数规模(亿):
220.0
得分:
80.0
发布时间:
2025-02-25
参数规模(亿):
未知
得分:
79.8
发布时间:
2025-01-20
参数规模(亿):
6710.0
得分:
79.5
发布时间:
2025-03-06
参数规模(亿):
325.0
得分:
79.4
发布时间:
2025-04-28
参数规模(亿):
80.0
得分:
79.2
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
79.2
发布时间:
2025-06-30
参数规模(亿):
719.0
得分:
78.2
发布时间:
2025-03-21
参数规模(亿):
0.0
得分:
76.4
发布时间:
2024-06-05
参数规模(亿):
90.0
得分:
76.0
发布时间:
2025-05-23
参数规模(亿):
未知
得分:
73.59
发布时间:
2025-06-10
参数规模(亿):
未知
得分:
70.68
发布时间:
2025-06-10
参数规模(亿):
240.0
得分:
69.6
发布时间:
2025-07-11
参数规模(亿):
10000.0
得分:
63.6
发布时间:
2024-09-12
参数规模(亿):
未知
得分:
59.4
发布时间:
2025-03-24
参数规模(亿):
6810.0
得分:
54.8
发布时间:
2025-06-30
参数规模(亿):
3000.0
得分:
53.3
发布时间:
2025-01-20
参数规模(亿):
70.0
得分:
50.0
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
50.0
发布时间:
2024-11-28
参数规模(亿):
320.0
得分:
49.6
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
48.1
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
43.4
发布时间:
2025-05-23
参数规模(亿):
未知
得分:
40.0
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
39.0
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
36.7
发布时间:
2025-02-28
参数规模(亿):
未知
得分:
36.0
发布时间:
2025-02-05
参数规模(亿):
未知
得分:
29.4
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
25.3
发布时间:
2025-03-12
参数规模(亿):
270.0
得分:
23.3
发布时间:
2025-02-25
参数规模(亿):
未知
得分:
16.0
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
10.0
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
9.3
发布时间:
2024-05-13
参数规模(亿):
未知