AIME 2024
2024年,美国数学邀请赛(AIME)成为评估大型语言模型(LLM)数学推理能力的重要基准。AIME是一项备受尊崇的考试,包含15道题,考试时间为3小时,旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。
更新于 2026-04-22
1,938 次浏览
问题数量
15
发布机构
个人
评测类别
数学推理
评测指标
Accuracy
支持语言
英文
难度等级
高难度
简介
AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。
相关资源
AIME 2024 大模型得分排行榜
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
AIME 2024评测最新大模型排名与完整榜单数据
查看 AIME 2024 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
模型发布时间截止:
AIME 2024详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | OpenAI o4 - mini 开启思考工具 | 98.70 | 2025-04-16 | 未知 |
| 2 | GPT OSS 120B 开启思考工具 | 96.60 | 2025-08-06 | 117 |
| 3 | 96.00 | 2025-02-18 | 未知 | |
| 4 | GPT OSS 20B 开启思考工具 | 96.00 | 2025-08-06 | 210 |
| 5 | OpenAI o4 - mini 开启思考 | 93.40 | 2025-04-16 | 未知 |
| 6 | 93.30 | 2025-02-18 | 未知 | |
| 7 | DeepSeek-V3.1 开启思考 | 93.10 | 2025-08-20 | 6710 |
| 8 | o3-pro 常规模式 | 93.00 | 2025-06-10 | 未知 |
| 9 | 92.00 | 2025-03-25 | 未知 | |
| 10 | 92.00 | 2025-05-06 | 未知 | |
| 11 | Gemini 2.5-Pro 常规模式 | 92.00 | 2025-06-05 | 未知 |
| 12 | OpenAI o3 常规模式 | 91.60 | 2025-04-16 | 未知 |
| 13 | DeepSeek-R1-0528 开启思考 | 91.40 | 2025-05-28 | 6710 |
| 14 | GLM-4.5 开启思考 | 91.00 | 2025-07-28 | 3550 |
| 15 | GLM-4.5-Air 开启思考 | 89.40 | 2025-07-28 | 1060 |
| 16 | Gemini 2.5 Flash 常规模式 | 88.00 | 2025-04-17 | 未知 |
| 17 | 87.30 | 2025-06-27 | 800 | |
| 18 | 87.00 | 2025-01-31 | 未知 | |
| 19 | MiniMax-M1-80k 常规模式 | 86.00 | 2025-06-16 | 4560 |
| 20 | Qwen3-235B-A22B 常规模式 | 85.70 | 2025-04-28 | 2350 |
| 21 | Qwen3-235B-A22B 开启思考 | 85.70 | 2025-04-28 | 2350 |
| 22 | Grok 3 常规模式 | 84.20 | 2025-02-17 | 未知 |
| 23 | MiniMax-M1-40k 常规模式 | 83.30 | 2025-06-16 | 4560 |
| 24 | Pangu Embedded 常规模式 | 81.90 | 2025-06-30 | 70 |
| 25 | Qwen3-32B 开启思考 | 81.40 | 2025-04-28 | 320 |
| 26 | Hunyuan-7B 常规模式 | 81.10 | 2025-08-04 | 70 |
| 27 | 80.00 | 2025-02-25 | 未知 | |
| 28 | DeepSeek-R1 常规模式 | 79.80 | 2025-01-20 | 6710 |
| 29 | QwQ-32B 常规模式 | 79.50 | 2025-03-06 | 325 |
| 30 | Qwen3-8B 常规模式 | 79.40 | 2025-04-28 | 80 |
滚动或悬停加载剩余 32 条