大模型评测基准AIME 2024介绍
2024年,美国数学邀请赛(AIME)成为评估大型语言模型(LLM)数学推理能力的重要基准。AIME是一项备受尊崇的考试,包含15道题,考试时间为3小时,旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。

当前全球主流大模型在AIME 2024上的得分和评论参考DataLearnerAI的AIME2024排行榜数据:https://www.datalearner.com/ai-models/llm-benchmark-tests/37
AIME 2025的得分排行榜也出来了,更加具有参考性,大模型在AIME2025得分可以参考DataLearnerAI数据:https://www.datalearner.com/benchmarks/aime-2025
