AIME 2026:基于2026年美国数学邀请赛的大模型数学能力评估基准
AIME 2026 是基于美国数学邀请赛(American Invitational Mathematics Examination)2026 年问题的评测基准,用于评估大语言模型在高中水平数学推理方面的表现。该基准包含 15 个问题,覆盖代数、几何、数论和组合数学等领域。模型通过生成答案并与标准答案比较来计算准确率。
现有评测面临的挑战
当前大模型评测在数学领域存在数据污染问题,因为历史 AIME 问题已被纳入训练数据,导致模型在旧基准上表现过高。AIME 2026 作为新发布的问题集,提供未污染的测试环境。评估还需考虑计算成本和多轮推理的稳定性,以反映实际应用场景。
基准背景与目标
该基准源于 Mathematical Association of America (MAA) 于 2026 年 2 月 5 日发布的 AIME I 竞赛问题集。MathArena 等平台将其转化为大模型评测基准,发布时间为 2026 年 2 月 6 日。该基准旨在解决大模型在复杂多步数学推理中的局限性,通过整数答案(000-999 格式)测试模型的逻辑推导和符号处理能力。
评测框架与实施
基准包括 15 个问题,每个问题要求模型输出三位整数答案。评估方法采用多轮运行(通常 4 次),计算平均准确率,并记录每次推理的成本(以美元计)。
流程如下:
- 输入问题文本给模型。
- 模型生成推理链和最终答案。
- 与官方答案键比较,正确答案计 1 分,满分 15 分,转为百分比。
该框架兼容开箱即用模型,无需额外训练,支持并行评估。
主流模型表现分析
在 MathArena 平台上,多个模型接受测试。GPT-5.2 (high) 准确率为 96.67%,成本为 1.73 美元。Grok 4.1 Fast 准确率为 95%,成本为 0.06 美元。Step 3.5 Flash 准确率为 96.67%,成本为 0.19 美元。DeepSeek V3.2 准确率为 90%以上,成本为 0.09 美元。
分析显示,闭源模型如 GPT-5.2 在准确率上领先,但成本较高。开源模型如 DeepSeek 在性价比上占优。X 平台讨论指出,Grok 在成本控制方面的表现使其适用于大规模应用,而整体趋势表明模型在 AIME 级别数学上的饱和度接近 100%。
基准结语
AIME 2026 基准揭示大模型在高中数学推理领域的进展,同时强调成本优化和泛化能力的必要性。该基准为未来评测提供参考,推动模型向更复杂任务演进。
