大模型ARC-AGI-3评测基准:首个交互式推理基准
ARC-AGI 系列基准由 ARC Prize Foundation 维护,长期被主要 AI 实验室和学术研究者作为衡量 AI 推理能力的参照。2026年3月25日,该系列第三代版本 ARC-AGI-3 在旧金山 Y Combinator 正式发布,这是自2019年该系列初次推出以来,格式层面改动最大的一次迭代。
一、前两代基准的进展与饱和
要理解 ARC-AGI-3 为何出现,需要先了解前两代基准的走向。
ARC-AGI-1 和 ARC-AGI-2 都是图像输入、图像输出的评测——给出一组输入/输出网格对,系统需推断变换规则并对新实例生成正确输出,测试的是抽象能力与模式识别。到2025年,前沿模型在第一版上的得分已突破90%,这促使团队构建了第二版,引入更复杂的组合谜题。
到2026年2月,Gemini 3.1 Pro 在 ARC-AGI-2 上得分达到77.1%,Gemini 3 Deep Think 达到84.6%,接近该基准的实际上限。ARC-AGI-1 则基本宣告解决,Gemini 3.1 Pro 已达到98%。
两代基准快速饱和的背后,除模型能力提升外,还存在一个结构性问题:Gemini 3 的推理过程中曾正确引用 ARC-AGI 任务使用的整数-颜色映射,而这一信息从未明确告知模型——有力地表明该基准数据已被充分纳入训练。 当前前沿 AI 推理能力从根本上受限于知识覆盖范围,由此产生了新形式的基准污染。
这些问题推动了第三代版本的诞生。
二、ARC-AGI-3 基本信息
奖金结构上,ARC-AGI-3 赛道总奖金85万美元,其中大奖70万美元授予首个在评测集上达到100%的团队;另有保底奖金奖励排名前五;两个里程碑奖在6月30日与9月30日设置阶段奖励。ARC-AGI-2 赛道则延续约100万美元的大奖,面向达到85%的开源方案,该奖项在2024年和2025年均未被认领。
三、评测设计与评分机制
从静态谜题到交互环境
ARC-AGI-3 彻底改变了评测格式。每个环境是一个具有独立内在逻辑的回合制游戏,没有任何指令、描述,也没有明确的胜利条件。Agent 观察到视觉状态,执行动作,看到结果,必须即时推断自己的目标以及实现目标的方式——无需依赖自然语言指令,也没有任何关于该游戏的先验知识。
共135个环境经过测试,所有环境均被无先验知识、无任何指令的人类参与者顺利通过。 每个环境包含8至10个关卡,关卡难度递增,逐步引入新机制。
人类基线数据来自预览阶段的大规模测试:研究团队从1200多名人类玩家在3900多场游戏中收集了数据。 每个环境至少经过10名参与者的受控测试,以第二好的人类玩家行动数作为正式基线——去掉最优者以避免异常值影响。
评分指标:RHAE
核心评分指标名为 RHAE(Relative Human Action Efficiency,相对人类行动效率)。它衡量 AI 完成每个关卡所用行动数与人类基线的比率,在每个环境内归一化后跨所有环境取平均。该指标惩罚蛮力搜索——随机尝试大量选项的系统被认为不如快速构建环境模型并有效规划的系统;同时兼顾数据效率和风险效率,并允许直接进行人机比较。
具体的惩罚机制采用平方计算:若人类需10步完成,AI需100步,则该关卡得分为1%。 单关卡得分上限为人类基线的1.0倍,AI 每关行动数上限设为人类平均的5倍,超出则视为未完成。
官方排行榜仅接受通过 API 调用、使用统一系统提示的模型结果,不接受针对特定任务定制的 harness 方案——原因是评测目标是衡量模型自身的通用智能,而非人类工程师在特定任务系统搭建上投入的智能。
四、主流模型当前表现
以下为官方排行榜发布时各主流模型的得分(2026年3月,统一 API 调用,无定制 harness):

Gemini 3.1 Pro Preview 得分0.37%,GPT-5.4得分0.26%,Claude Opus 4.6得分0.25%,Grok-4.20得分0.00%。与此同时,所有人类测试者100%通过了全部环境,且未接受任何训练或指令。预览阶段(2025年7月至8月)得分最高的方案值得单独说明:12.58%来自非 LLM 的图搜索方案(CNN + 图结构状态探索),而非任何大型语言模型。
另一个说明问题的实验来自与杜克大学的合作测试:Claude Opus 4.6 在已知环境中使用定制 harness 得分97.1%,但在从未见过的环境中得分归零。这表明,感知游戏环境和 API 格式本身并不是瓶颈——定制策略根本无法迁移到未见过的环境。
五、关于评测设计的讨论
ARC-AGI 系列在历史上对 AI 能力拐点的指示相对准确:ARC-AGI-1 大概率是第一个精确识别出 o3 等前沿推理系统突破的基准;ARC-AGI-2 随后捕捉到了现代推理模型的快速进步和 scaffolding 技术的兴起,这些技术如今已被部署在 Claude Code 和 Codex 等生产工具中。
不过,ARC-AGI-3 的评测设计本身也引发了一些讨论。批评者指出,平方效率惩罚机制本身就倾向于产生低分结果;此外,官方评测排除了扩展思考模式的模型。 对此,Foundation 的回应是:官方榜之外单设社区排行榜接受 harness 驱动的结果,但采用自报告机制,并明确警告不应将社区榜上的任何得分视为 AGI 进展的证据。 Foundation 的判断是,足够通用的 harness 技术最终会被模型本身吸纳——正如 chain-of-thought 从外部技术变成 o1 内置特性的过程。
竞赛层面也有一个值得注意的约束:Kaggle 评测过程中不允许访问互联网,这意味着评测阶段不能调用任何外部推理 API。希望认真参赛的团队,要么在本地运行开放权重模型,要么构建类似预览期获胜者那样的非 LLM 系统。
六、小结
ARC-AGI-3 与前两代基准在形式上存在根本差异:从静态图像谜题转向无指令、无规则说明的回合制交互环境,评分标准从正确率转向与人类基线对齐的行动效率。
该基准的核心主张是:只要 AI 与人类之间存在学习效率的差距,AGI 就尚未达成。ARC-AGI-3 通过跨时间测试智能来使这一差距可量化,捕捉规划视野、记忆压缩以及随新证据更新信念的能力。
从目前数据来看,前沿大模型在这一维度的表现与人类之间存在量级上的差距,且这种差距不能简单归因于工程层面的优化缺失。ARC-AGI-3 将在2026年全年持续运行,可以将其作为观察 AI Agent 自主适应能力发展的参照之一。技术报告与工具包均已开源,可通过 arcprize.org 获取。
