介绍 AIME 2025:评估大型语言模型高级数学推理能力的基准

标签:#AIME##AIME2025##大模型评测##大模型评测基准##评测基准# 时间:2025/06/08 21:00:56 作者:小木

随着大语言模型(LLM)的发展越来越快,我们需要更好的方法来评估它们到底有多“聪明”,特别是在处理复杂数学问题的时候。AIME 2025 就是这样一个工具,它专门用来测试当前 AI 在高等数学推理方面的真实水平。

大模型数学能力测评AIME2025介绍

DataLearner目前已经收集了全球主流的大模型在AIME 2025上的测试结果,对于该评测的结果请参考:https://www.datalearner.com/ai-models/llm-benchmark-tests/42

AIME 2025 是什么?

简单来说,AIME 2025 是一个评测数据集,题目来自美国的数学邀请赛 (AIME)。这个 AIME 竞赛本身难度就很高,主要是给那些在 AMC(美国数学竞赛)中表现出色的高中生准备的。题目覆盖代数、几何、数论、组合数学等,解题往往需要好几步推理,还得有点巧思。

这个基准用的就是 2025 年 2 月份公布的 AIME I 和 AIME II 的真题。评估模型行不行,通常看一个叫 pass@1 的指标,意思是看模型能不能一次就算对那个 0 到 999 之间的整数答案。

它难在哪里?

像 MMLU 或 GSM8K 这些常见的基准,现在顶尖的模型得分已经很高了,区分度不大了。AIME 2025 不一样,它的难度要大得多,正好可以看看现在最强的 AI 模型极限在哪里。

主要的难点包括:

  • 解题步骤多且复杂: 题目很少能一步搞定,需要绕几个弯,用到好几个数学知识点。

  • 需要抽象思考: 光靠“死记硬背”或模式识别不够,得真正理解数学概念,并能灵活运用。

  • 数学知识要求高: 考察的都是比较深入的数学内容,不是简单的加减乘除或基础代数。

大模型在 AIME 2025 上的表现怎么样?

从最近的测试结果来看,AIME 2025 对现在的大模型确实是个挑战,不过也能看到它们进步很快。下面是一些公开的测试分数(通常是 pass@1,并且除非特别说明,模型自己独立完成,没用外部计算器之类的工具):

谷歌的 Gemini 2.5 Pro: 表现很突出,有测试显示它在 AIME 2025 上拿到了 86.7% 的分数。这说明它的内置数学能力相当强,尤其是在没借助工具的情况下。它的前代 Gemini 2.0 成绩也不错。

OpenAI 的模型(GPT-4 系列,o 系列): OpenAI 的模型,特别是那个专门搞推理的 “o 系列”,表现也很好,尤其是在允许使用工具(比如 Python)的时候。OpenAI 自己说,o4-mini 模型用了工具能解决 99.5% 的 AIME 2025 问题,o3 模型是 98.4%。如果不用工具,分数会低一些,但也还行(比如在 AIME 2024 上,o4-mini 大概 93%,o3 大概 91%)。不过,通用版的 GPT-4.5 在 AIME 上的得分就不如专门的 o 系列推理模型了。

Anthropic 的 Claude 模型: Claude 系列也有不错的数学能力。比如 Claude 3.7 Sonnet 在“加长思考时间”模式下,在 AIME 2024 上得分是 80.0%。虽然没直接看到 Claude 3.7 在 AIME 2025 上的具体分数,但估计也差不太多,可能比 Gemini 2.5 Pro 稍微低一点。

其他模型: 像国内的 DeepSeek R1 等模型也测过,在 AIME 2024 上表现挺有竞争力(比如 Pass@1 达到 71.0%),但 AIME 2025 的具体数据目前看到的还不多。

需要注意的是: 测试分数会受到很多因素影响,比如用的哪个版本的模型、怎么提问、让不让用计算器等等。而且,大家发现模型在 2025 年的新题上得分普遍比 2024 年的老题要低一些。

为什么 AIME 2025 这个基准有价值?

在 AI 研究圈里,AIME 2025 主要有这么几个用处:

提供统一的衡量标准: 有一个公认的难题库,大家就能在同一个标准下比较不同大模型的数学推理能力到底谁强谁弱。

促进技术发展: 因为难,所以能刺激研究人员去开发推理能力更强的模型,这对需要精密计算和逻辑的科学、工程领域很有用。

发现模型的问题: 通过看模型在哪些难题上栽跟头,研究者能更清楚地了解当前 AI 架构和训练方法的不足之处,不只是看答案对不对,还要看推理过程行不行。有研究就发现,有些模型虽然答题分数高,但让它写严格的证明过程就露馅了。

暴露评测本身的挑战: AIME 的使用也让大家注意到评测中的一些问题。比如“数据污染”,要是模型训练时见过这些竞赛题,那测试结果就不准了。从 AIME 2024 到 2025 分数下降,也说明新题更能测出真实水平,可能也反映了某些模型对老题有点“过拟合”。同时,这也说明 AI 模型的表现对测试怎么设置非常敏感。

总结一下

总的来说,AIME 2025 是当前评估大语言模型高级数学能力的一个重要工具。它用的是有难度的真实竞赛题,能有效地检测出模型在复杂推理上的实力。虽然像 Gemini 2.5 Pro 和用了工具的 OpenAI o 系列模型已经取得了很不错的成绩,但 AIME 2025 仍然是一个有挑战性的基准,能帮助我们区分不同顶级模型的细微差距,为开发更强大、更可靠的人工智能指明方向。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送