DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Contents
Contents
  1. Home/
  2. Blog List/
  3. Blog Detail

大模型ARC-AGI-3评测基准:首个交互式推理基准

2026/04/11 22:28:51
469 views
ARC-AGIARC-AGI-3大模型评测基准

ARC-AIG-3最新完整的评测结果可以访问DataLearnerAI的ARC-AGI-3数据:https://www.datalearner.com/benchmarks/arc-agi-3

ARC-AGI 系列基准由 ARC Prize Foundation 维护,长期被主要 AI 实验室和学术研究者作为衡量 AI 推理能力的参照。

从形式上看,ARC-AGI 可以理解为一类“从示例中归纳规则”的任务集合。系统接收到若干组输入/输出示例,每个示例由小尺寸二维网格构成,网格中的每个单元为离散取值(通常表示颜色编号)。模型需要从这些示例中推断潜在的变换规则,并将该规则应用到新的输入上生成正确输出。

需要强调的是,这里的“图像”并非自然图片,而是抽象网格结构(可视为二维数组),任务不涉及现实语义理解,而是聚焦于结构归纳、模式组合与规则外推能力。

例如,一个典型任务可能如下:

输入:

0 0 0
0 2 0
0 0 0

输出:

0 0 0
0 3 0
0 0 0

在多个类似示例中,模型需要归纳出规则(如“将颜色 2 替换为颜色 3”),并将该规则应用到新的输入上。这类任务本质上属于从有限样本中进行程序归纳(program induction)。

2026年3月25日,该系列第三代版本 ARC-AGI-3 在旧金山 Y Combinator 正式发布,这是自2019年该系列初次推出以来,格式层面改动最大的一次迭代。


一、前两代基准的进展与饱和

要理解 ARC-AGI-3 为何出现,需要先了解前两代基准的走向。

ARC-AGI-1 和 ARC-AGI-2 都是图像输入、图像输出的评测——但这里的“图像”指的是离散网格表示的抽象图形,而非自然图像。给出一组输入/输出网格对,系统需推断变换规则并对新实例生成正确输出。

这些规则可能涉及颜色替换、几何变换、对象计数或结构重组,本质上属于从有限样本中进行程序归纳的问题。

到2025年,前沿模型在第一版上的得分已突破90%,这促使团队构建了第二版,引入更复杂的组合谜题。

到2026年2月,Gemini 3.1 Pro 在 ARC-AGI-2 上得分达到77.1%,Gemini 3 Deep Think 达到84.6%,接近该基准的实际上限。ARC-AGI-1 则基本宣告解决,Gemini 3.1 Pro 已达到98%。

两代基准快速饱和的背后,除模型能力提升外,还存在一个结构性问题:Gemini 3 的推理过程中曾正确引用 ARC-AGI 任务使用的整数-颜色映射,而这一信息从未明确告知模型——有力地表明该基准数据已被充分纳入训练。当前前沿 AI 推理能力从根本上受限于知识覆盖范围,由此产生了新形式的基准污染。

这些问题推动了第三代版本的诞生。


二、ARC-AGI-3 基本信息

项目内容
发布机构ARC Prize Foundation
核心作者François Chollet、Mike Knoop 等
正式发布时间2026年3月25日
预览版时间2025年7月17日
技术论文arxiv 2603.24621,将在 ICLR 2026 正式发表
竞赛平台Kaggle(ARC Prize 2026)
总奖金超过 200 万美元(分三个赛道)
开源要求所有获奖方案须以 CC0 或 MIT-0 许可公开

奖金结构上,ARC-AGI-3 赛道总奖金85万美元,其中大奖70万美元授予首个在评测集上达到100%的团队;另有保底奖金奖励排名前五;两个里程碑奖在6月30日与9月30日设置阶段奖励。ARC-AGI-2 赛道则延续约100万美元的大奖,面向达到85%的开源方案,该奖项在2024年和2025年均未被认领。


三、评测设计与评分机制

从静态谜题到交互环境

ARC-AGI-3 彻底改变了评测格式。

与前两代一次性给定输入并要求直接输出结果不同,ARC-AGI-3 采用交互式评测流程。对于每一个任务环境,模型并非一次性生成答案,而是以 agent 的形式循环执行以下过程:

  1. 观察当前环境状态(以网格或视觉形式呈现)
  2. 输出一个离散动作(如移动、选择或操作对象)
  3. 接收环境反馈(状态更新或终止信号)
  4. 基于历史轨迹更新内部推断并继续行动

这一过程持续进行,直到任务完成或达到步数上限。

每个环境是一个具有独立内在逻辑的回合制系统,没有任何指令、描述,也没有明确的胜利条件。这意味着模型需要在交互过程中同时推断“环境规则”和“任务目标”,而非仅在已知目标下执行规划。

共135个环境经过测试,所有环境均被无先验知识、无任何指令的人类参与者顺利通过。每个环境包含8至10个关卡,关卡难度递增,逐步引入新机制。

人类基线数据来自预览阶段的大规模测试:研究团队从1200多名人类玩家在3900多场游戏中收集了数据。每个环境至少经过10名参与者的受控测试,以第二好的人类玩家行动数作为正式基线——去掉最优者以避免异常值影响。


评分指标:RHAE

核心评分指标名为 RHAE(Relative Human Action Efficiency,相对人类行动效率)。它衡量 AI 完成每个关卡所用行动数与人类基线的比率,在每个环境内归一化后跨所有环境取平均。

该指标惩罚蛮力搜索——仅依赖大规模试错(brute-force exploration)而未形成有效环境模型的策略,会在该指标下显著受罚;同时兼顾数据效率与风险效率,并允许直接进行人机比较。

具体的惩罚机制采用平方计算:若人类需10步完成,AI需100步,则该关卡得分为1%。单关卡得分上限为人类基线的1.0倍,AI 每关行动数上限设为人类平均的5倍,超出则视为未完成。

官方排行榜仅接受通过 API 调用、使用统一系统提示的模型结果,不接受针对特定任务定制的 harness 方案——原因是评测目标是衡量模型自身的通用智能,而非人类工程师在特定任务系统搭建上投入的智能。


四、主流模型当前表现

ARC-AGI-3 leaderboard
ARC-AGI-3 leaderboard

Gemini 3.1 Pro Preview 得分0.37%,GPT-5.4得分0.26%,Claude Opus 4.6得分0.25%,Grok-4.20得分0.00%。

与此同时,所有人类测试者100%通过了全部环境,且未接受任何训练或指令。预览阶段(2025年7月至8月)得分最高的方案值得单独说明:12.58%来自非 LLM 的图搜索方案(CNN + 图结构状态探索),而非任何大型语言模型。

另一个说明问题的实验来自与杜克大学的合作测试:Claude Opus 4.6 在已知环境中使用定制 harness 得分97.1%,但在从未见过的环境中得分归零。这表明,感知游戏环境和 API 格式本身并不是瓶颈——定制策略根本无法迁移到未见过的环境。


五、关于评测设计的讨论

ARC-AGI 系列在历史上对 AI 能力拐点的指示相对准确:ARC-AGI-1 大概率是第一个精确识别出 o3 等前沿推理系统突破的基准;ARC-AGI-2 随后捕捉到了现代推理模型的快速进步和 scaffolding 技术的兴起,这些技术如今已被部署在 Claude Code 和 Codex 等生产工具中。

不过,ARC-AGI-3 的评测设计本身也引发了一些讨论。批评者指出,平方效率惩罚机制本身就倾向于产生低分结果;此外,官方评测排除了扩展思考模式的模型。

对此,Foundation 的回应是:官方榜之外单设社区排行榜接受 harness 驱动的结果,但采用自报告机制,并明确警告不应将社区榜上的任何得分视为 AGI 进展的证据。Foundation 的判断是,足够通用的 harness 技术最终会被模型本身吸纳——正如 chain-of-thought 从外部技术变成 o1 内置特性的过程。

竞赛层面也有一个值得注意的约束:Kaggle 评测过程中不允许访问互联网,这意味着评测阶段不能调用任何外部推理 API。希望认真参赛的团队,要么在本地运行开放权重模型,要么构建类似预览期获胜者那样的非 LLM 系统。


六、小结

从评测形式上看,ARC-AGI 系列经历了从“静态规则归纳任务”到“动态环境中的在线学习与决策问题”的转变。

ARC-AGI-3 与前两代基准在形式上存在根本差异:从一次性基于示例推断规则并输出结果,转向在无指令环境中通过交互逐步建立模型并完成任务;评分标准也从正确率转向与人类基线对齐的行动效率。

该基准的核心主张是:只要 AI 与人类之间存在学习效率的差距,AGI 就尚未达成。ARC-AGI-3 通过跨时间测试智能来使这一差距可量化,捕捉规划视野、记忆压缩以及随新证据更新信念的能力。

从目前数据来看,前沿大模型在这一维度的表现与人类之间存在量级上的差距,且这种差距不能简单归因于工程层面的优化缺失。ARC-AGI-3 将在2026年全年持续运行,可以将其作为观察 AI Agent 自主适应能力发展的参照之一。技术报告与工具包均已开源,ARC-AIG-3最新完整的评测结果可以访问DataLearnerAI的ARC-AGI-3数据:https://www.datalearner.com/benchmarks/arc-agi-3

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

  • AA-LCR:大模型长上下文推理能力的权威评测基准(Artificial Analysis Long Context Reasoning)是什么?包含哪些任务?如何测试大模型超长上下文能力?
  • 探索 OSWorld Verified:大模型AI Agent在真实计算机任务中的评估框架
  • ClawBench:针对OpenClaw场景的大模型智能体(LLM Agent)的评测基准。
  • SWE-bench Multilingual 多语言软件工程评测基准全面解读:覆盖9种编程语言的大模型评测基准
  • OSWorld-Verified:大模型“用电脑”能力的权威评测基准
  • GDPval-AA:大模型在真实世界任务中的“经济价值”评测基准
  • MMEB:多模态嵌入基准评测,用于测试多模态向量检索和排序准确性的基准
  • Context Arena:长上下文大模型评测基准介绍

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署