介绍 AIME 2025:评估大型语言模型高级数学推理能力的基准
随着大语言模型(LLM)的发展越来越快,我们需要更好的方法来评估它们到底有多“聪明”,特别是在处理复杂数学问题的时候。AIME 2025 就是这样一个工具,它专门用来测试当前 AI 在高等数学推理方面的真实水平。

DataLearner目前已经收集了全球主流的大模型在AIME 2025上的测试结果,对于该评测的结果请参考:https://www.datalearner.com/ai-models/llm-benchmark-tests/42
AIME 2025 是什么?
简单来说,AIME 2025 是一个评测数据集,题目来自美国的数学邀请赛 (AIME)。这个 AIME 竞赛本身难度就很高,主要是给那些在 AMC(美国数学竞赛)中表现出色的高中生准备的。题目覆盖代数、几何、数论、组合数学等,解题往往需要好几步推理,还得有点巧思。
这个基准用的就是 2025 年 2 月份公布的 AIME I 和 AIME II 的真题。评估模型行不行,通常看一个叫 pass@1 的指标,意思是看模型能不能一次就算对那个 0 到 999 之间的整数答案。
它难在哪里?
像 MMLU 或 GSM8K 这些常见的基准,现在顶尖的模型得分已经很高了,区分度不大了。AIME 2025 不一样,它的难度要大得多,正好可以看看现在最强的 AI 模型极限在哪里。
主要的难点包括:
