AIME 2026：基于2026年美国数学邀请赛的大模型数学能力评估基准

加载中...

AIME 2026 是基于美国数学邀请赛（American Invitational Mathematics Examination）2026 年问题的评测基准，用于评估大语言模型在高中水平数学推理方面的表现。该基准包含 15 个问题，覆盖代数、几何、数论和组合数学等领域。模型通过生成答案并与标准答案比较来计算准确率。

现有评测面临的挑战

当前大模型评测在数学领域存在数据污染问题，因为历史 AIME 问题已被纳入训练数据，导致模型在旧基准上表现过高。AIME 2026 作为新发布的问题集，提供未污染的测试环境。评估还需考虑计算成本和多轮推理的稳定性，以反映实际应用场景。

基准背景与目标

该基准源于 Mathematical Association of America (MAA) 于 2026 年 2 月 5 日发布的 AIME I 竞赛问题集。MathArena 等平台将其转化为大模型评测基准，发布时间为 2026 年 2 月 6 日。该基准旨在解决大模型在复杂多步数学推理中的局限性，通过整数答案（000-999 格式）测试模型的逻辑推导和符号处理能力。

评测框架与实施

基准包括 15 个问题，每个问题要求模型输出三位整数答案。评估方法采用多轮运行（通常 4 次），计算平均准确率，并记录每次推理的成本（以美元计）。

流程如下：

输入问题文本给模型。
模型生成推理链和最终答案。
与官方答案键比较，正确答案计 1 分，满分 15 分，转为百分比。

类别	问题示例	评估指标
代数	涉及运动和方程组	准确率
几何	图形属性计算	成本/推理
数论	整数性质	多轮平均

该框架兼容开箱即用模型，无需额外训练，支持并行评估。

主流模型表现分析

在 MathArena 平台上，多个模型接受测试。GPT-5.2 (high) 准确率为 96.67%，成本为 1.73 美元。Grok 4.1 Fast 准确率为 95%，成本为 0.06 美元。Step 3.5 Flash 准确率为 96.67%，成本为 0.19 美元。DeepSeek V3.2 准确率为 90%以上，成本为 0.09 美元。

分析显示，闭源模型如 GPT-5.2 在准确率上领先，但成本较高。开源模型如 DeepSeek 在性价比上占优。X 平台讨论指出，Grok 在成本控制方面的表现使其适用于大规模应用，而整体趋势表明模型在 AIME 级别数学上的饱和度接近 100%。

基准结语

AIME 2026 基准揭示大模型在高中数学推理领域的进展，同时强调成本优化和泛化能力的必要性。该基准为未来评测提供参考，推动模型向更复杂任务演进。

AIME 2026：基于2026年美国数学邀请赛的大模型数学能力评估基准

现有评测面临的挑战

基准背景与目标

评测框架与实施

主流模型表现分析

基准结语

DataLearner WeChat

AIME 2026：基于2026年美国数学邀请赛的大模型数学能力评估基准

现有评测面临的挑战

基准背景与目标

评测框架与实施

主流模型表现分析

基准结语

DataLearner WeChat