加载中...
加载中...
2024年,美国数学邀请赛(AIME)成为评估大型语言模型(LLM)数学推理能力的重要基准。AIME是一项备受尊崇的考试,包含15道题,考试时间为3小时,旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。
AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | OpenAI o4 - minithinking + 使用工具 | 98.7 | 2025-04-16 | 未知 |
| 2 | GPT OSS 120Bthinking + 使用工具 | 96.6 | 2025-08-06 | 117 |
| 3 | 96 | 2025-02-18 | 未知 | |
| 4 | GPT OSS 20Bthinking + 使用工具 | 96 | 2025-08-06 | 210 |
| 5 | OpenAI o4 - minithinking | 93.4 | 2025-04-16 | 未知 |
| 6 | 93.3 | 2025-02-18 | 未知 | |
| 7 | DeepSeek-V3.1thinking | 93.1 | 2025-08-20 | 6710 |
| 8 | 93 | 2025-06-10 | 未知 | |
| 9 | 92 | 2025-03-25 | 未知 | |
| 10 | 92 | 2025-05-06 | 未知 | |
| 11 | 92 | 2025-06-05 | 未知 | |
| 12 | 91.6 | 2025-04-16 | 未知 | |
| 13 | DeepSeek-R1-0528thinking | 91.4 | 2025-05-28 | 6710 |
| 14 | GLM-4.5thinking | 91 | 2025-07-28 | 3550 |
| 15 | GLM-4.5-Airthinking | 89.4 | 2025-07-28 | 1060 |
| 16 | 88 | 2025-04-17 | 未知 | |
| 17 | 87.3 | 2025-06-27 | 800 | |
| 18 | 87 | 2025-01-31 | 未知 | |
| 19 | 86 | 2025-06-16 | 4560 | |
| 20 | 85.7 | 2025-04-28 | 2350 | |
| 21 | Qwen3-235B-A22Bthinking | 85.7 | 2025-04-28 | 2350 |
| 22 | 84.2 | 2025-02-17 | 未知 | |
| 23 | 83.3 | 2025-06-16 | 4560 | |
| 24 | 81.9 | 2025-06-30 | 70 | |
| 25 | 81.4 | 2025-04-28 | 320 | |
| 26 | Qwen3-32Bthinking | 81.4 | 2025-04-28 | 320 |
| 27 | 81.1 | 2025-08-04 | 70 | |
| 28 | 80 | 2025-02-25 | 未知 | |
| 29 | 79.8 | 2025-01-20 | 6710 | |
| 30 | 79.5 | 2025-03-06 | 325 |