标签

「大模型数学能力评测」相关文章

汇总「大模型数学能力评测」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#大模型数学能力评测

AIME 2026：基于2026年美国数学邀请赛的大模型数学能力评估基准

AIME 2026 是基于美国数学邀请赛（American Invitational Mathematics Examination）2026 年问题的评测基准，用于评估大语言模型在高中水平数学推理方面的表现。该基准包含 15 个问题，覆盖代数、几何、数论和组合数学等领域。模型通过生成答案并与标准答案比较来计算准确率。

2026/02/13 15:05:25817

#AIME #AIME2026

IOI（International Olympiad in Informatics）：从世界顶级算法竞赛到大语言模型的新基准

在衡量大语言模型（LLM）智能水平的众多方法中，除了常见的常识推理、专业领域测评外，还有一个正在兴起且极具挑战性的方向——算法问题求解。在这一领域，几乎没有哪项比赛能比国际信息学奥林匹克（International Olympiad in Informatics，简称 IOI）更具权威性与含金量。

2025/08/12 14:48:26537

#大模型数学能力评测 #大模型评测