AIME 2024
2024年,美国数学邀请赛(AIME)成为评估大型语言模型(LLM)数学推理能力的重要基准。AIME是一项备受尊崇的考试,包含15道题,考试时间为3小时,旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。
更新于 2026-04-22
1,939 次浏览
问题数量
15
发布机构
个人
评测类别
数学推理
评测指标
Accuracy
支持语言
英文
难度等级
高难度
简介
AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。
相关资源
AIME 2024 Model Score Leaderboard
Source: DataLearnerAI
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
Latest AIME 2024 model rankings and full benchmark leaderboard
Browse the latest scores, model modes, release dates, and parameter sizes for AIME 2024.
Model release cutoff:
AIME 2024详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | OpenAI o4 - mini Thinking EnabledTools | 98.70 | 2025-04-16 | 未知 |
| 2 | GPT OSS 120B Thinking EnabledTools | 96.60 | 2025-08-06 | 117 |
| 3 | Grok-3 mini - Reasoning Standard Mode | 96.00 | 2025-02-18 | 未知 |
| 4 | GPT OSS 20B Thinking EnabledTools | 96.00 | 2025-08-06 | 210 |
| 5 | OpenAI o4 - mini Thinking Enabled | 93.40 | 2025-04-16 | 未知 |
| 6 | Grok-3 - Reasoning Beta Standard Mode | 93.30 | 2025-02-18 | 未知 |
| 7 | DeepSeek-V3.1 Thinking Enabled | 93.10 | 2025-08-20 | 6710 |
| 8 | o3-pro Standard Mode | 93.00 | 2025-06-10 | 未知 |
| 9 | Gemini 2.5 Pro Experimental 03-25 Standard Mode | 92.00 | 2025-03-25 | 未知 |
| 10 | Gemini-2.5-Pro-Preview-05-06 Standard Mode | 92.00 | 2025-05-06 | 未知 |
| 11 | Gemini 2.5-Pro Standard Mode | 92.00 | 2025-06-05 | 未知 |
| 12 | OpenAI o3 Standard Mode | 91.60 | 2025-04-16 | 未知 |
| 13 | DeepSeek-R1-0528 Thinking Enabled | 91.40 | 2025-05-28 | 6710 |
| 14 | GLM-4.5 Thinking Enabled | 91.00 | 2025-07-28 | 3550 |
| 15 | GLM-4.5-Air Thinking Enabled | 89.40 | 2025-07-28 | 1060 |
| 16 | Gemini 2.5 Flash Standard Mode | 88.00 | 2025-04-17 | 未知 |
| 17 | Hunyuan-A13B-Instruct Standard Mode | 87.30 | 2025-06-27 | 800 |
| 18 | OpenAI o3-mini (high) Standard Mode | 87.00 | 2025-01-31 | 未知 |
| 19 | MiniMax-M1-80k Standard Mode | 86.00 | 2025-06-16 | 4560 |
| 20 | Qwen3-235B-A22B Standard Mode | 85.70 | 2025-04-28 | 2350 |
| 21 | Qwen3-235B-A22B Thinking Enabled | 85.70 | 2025-04-28 | 2350 |
| 22 | Grok 3 Standard Mode | 84.20 | 2025-02-17 | 未知 |
| 23 | MiniMax-M1-40k Standard Mode | 83.30 | 2025-06-16 | 4560 |
| 24 | Pangu Embedded Standard Mode | 81.90 | 2025-06-30 | 70 |
| 25 | Qwen3-32B Thinking Enabled | 81.40 | 2025-04-28 | 320 |
| 26 | Hunyuan-7B Standard Mode | 81.10 | 2025-08-04 | 70 |
| 27 | Claude Sonnet 3.7-64K Extended Thinking Standard Mode | 80.00 | 2025-02-25 | 未知 |
| 28 | DeepSeek-R1 Standard Mode | 79.80 | 2025-01-20 | 6710 |
| 29 | QwQ-32B Standard Mode | 79.50 | 2025-03-06 | 325 |
| 30 | Qwen3-8B Standard Mode | 79.40 | 2025-04-28 | 80 |
滚动或悬停加载剩余 32 条