ARC-AGI-2:重塑大模型通用智能评测

标签:#ARC-AGI-2##大模型评测##大模型评测基准##评测基准# 时间:2025/07/10 12:51:46 作者:小木

人工智能(AI)的通用智能(AGI)发展一直是研究领域的焦点。近期,由 ARC Prize 基金会推出并由 AI 研究者 François Chollet 联合发起的 ARC-AGI-2 评测基准,为衡量大模型在未知情境下的实时推理能力和学习效率提供了新的视角。

技术核心与设计理念

ARC-AGI-2 的核心在于其精心设计的视觉逻辑谜题。这些谜题由一系列多色方块组成,要求 AI 模型在首次接触的情况下,通过分析和推理找到正确答案。此举旨在超越模型在海量数据中学习到的模式记忆,转而评估其真正的理解和解决问题的能力。

为应对现有评测基准中模型可能存在的“暴力破解”或过度拟合问题,ARC-AGI-2 引入了两个关键的限制条件:

  1. 禁止训练数据复用: 模型在测试阶段无法利用已知的训练数据,迫使其进行实时推理。
  2. 算力成本限制: 每道题目的计算成本被限定在较低的阈值(例如 0.42 美元)。这一指标用于量化 AI 获取和应用新知识或技能的效率,而非单纯的准确率。

此外,ARC-AGI-2 在测试流程上也进行了优化。所有测试任务都经过对照实验验证,确保至少有两位人类参与者能在两次尝试内完成。AI 模型同样遵循这一规则,每道题目最多允许两次作答机会,以模拟真实世界的资源和时间限制。

当前模型表现与能力洞察

ARC-AGI-2 的发布也伴随着一系列令人关注的评测结果,揭示了当前大模型在通用智能方面存在的挑战。

在 ARC-AGI-2 的公共测试集上,即便是一些以强大推理能力著称的大模型,其表现也远未达到人类水平。例如,某些基于大型语言模型(LLM)的系统和以推理能力为特色的模型,通过率仅在 0% 至 1.3% 之间。相比之下,人类参与者在相同测试中的平均正确率能够达到 60% 以上。

这些结果表明,当前 AI 模型在处理 ARC-AGI-2 这类任务时,普遍遇到以下困难:

  • 符号理解不足: 模型在识别图像元素变化的同时,难以深入理解这些元素所代表的含义或其在逻辑功能上的作用。
  • 组合推理的局限性: 在需要模型同时应用多项规则或规则之间存在复杂交互时,模型容易出现错误。
  • 情境化规则应用困难: 模型倾向于对表面模式进行过度学习和应用,而缺乏根据具体情境灵活调整和应用规则的能力。

在效率方面,模型也面临严峻挑战。与人类完成一道题目约 17 美元的成本相比,一些先进 AI 系统的解题成本可能高达数百美元,这凸显了在解决问题能力与资源使用效率之间存在的显著差距。

ARC-AGI-2 的出现,预示着 AI 研究将更侧重于模型在真实世界中的泛化能力和资源效率,推动 AI 向更通用、更高效的方向发展。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送