AIME 2026:基于2026年美国数学邀请赛的大模型数学能力评估基准
AIME 2026 是基于美国数学邀请赛(American Invitational Mathematics Examination)2026 年问题的评测基准,用于评估大语言模型在高中水平数学推理方面的表现。该基准包含 15 个问题,覆盖代数、几何、数论和组合数学等领域。模型通过生成答案并与标准答案比较来计算准确率。
现有评测面临的挑战
当前大模型评测在数学领域存在数据污染问题,因为历史 AIME 问题已被纳入训练数据,导致模型在旧基准上表现过高。AIME 2026 作为新发布的问题集,提供未污染的测试环境。评估还需考虑计算成本和多轮推理的稳定性,以反映实际应用场景。
基准背景与目标
该基准源于 Mathematical Association of America (MAA) 于 2026 年 2 月 5 日发布的 AIME I 竞赛问题集。MathArena 等平台将其转化为大模型评测基准,发布时间为 2026 年 2 月 6 日。该基准旨在解决大模型在复杂多步数学推理中的局限性,通过整数答案(000-999 格式)测试模型的逻辑推导和符号处理能力。
评测框架与实施
基准包括 15 个问题,每个问题要求模型输出三位整数答案。评估方法采用多轮运行(通常 4 次),计算平均准确率,并记录每次推理的成本(以美元计)。
