标签

「AIME」相关文章

汇总「AIME」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#AIME

AIME 2026：基于2026年美国数学邀请赛的大模型数学能力评估基准

AIME 2026 是基于美国数学邀请赛（American Invitational Mathematics Examination）2026 年问题的评测基准，用于评估大语言模型在高中水平数学推理方面的表现。该基准包含 15 个问题，覆盖代数、几何、数论和组合数学等领域。模型通过生成答案并与标准答案比较来计算准确率。

2026/02/13 15:05:25824

#AIME #AIME2026

介绍 AIME 2025：评估大型语言模型高级数学推理能力的基准

随着大语言模型（LLM）的发展越来越快，我们需要更好的方法来评估它们到底有多“聪明”，特别是在处理复杂数学问题的时候。AIME 2025 就是这样一个工具，它专门用来测试当前 AI 在高等数学推理方面的真实水平。

2025/06/08 21:00:562,488

#AIME #AIME2025