ARC-AGI-2:重塑大模型通用智能评测
人工智能(AI)的通用智能(AGI)发展一直是研究领域的焦点。近期,由 ARC Prize 基金会推出并由 AI 研究者 François Chollet 联合发起的 ARC-AGI-2 评测基准,为衡量大模型在未知情境下的实时推理能力和学习效率提供了新的视角。
技术核心与设计理念
ARC-AGI-2 的核心在于其精心设计的视觉逻辑谜题。这些谜题由一系列多色方块组成,要求 AI 模型在首次接触的情况下,通过分析和推理找到正确答案。此举旨在超越模型在海量数据中学习到的模式记忆,转而评估其真正的理解和解决问题的能力。
为应对现有评测基准中模型可能存在的“暴力破解”或过度拟合问题,ARC-AGI-2 引入了两个关键的限制条件:
- 禁止训练数据复用: 模型在测试阶段无法利用已知的训练数据,迫使其进行实时推理。
- 算力成本限制: 每道题目的计算成本被限定在较低的阈值(例如 0.42 美元)。这一指标用于量化 AI 获取和应用新知识或技能的效率,而非单纯的准确率。
