ARC-AGI-2

Name: ARC-AGI-2
Creator: 个人

人工智能（AI）的通用智能（AGI）发展一直是研究领域的焦点。近期，由 ARC Prize 基金会推出并由 AI 研究者 François Chollet 联合发起的 ARC-AGI-2 评测基准，为衡量大模型在未知情境下的实时推理能力和学习效率提供了新的视角。

更新于 2026年6月15日·5,587 次浏览

问题数量: 1000
发布机构: 个人
评测类别: 综合评估
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

极具挑战性的大模型通用能力评测基准

ARC-AGI-2评测最新大模型排名与完整榜单数据

查看 ARC-AGI-2 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

已排除 1 条并行模式成绩

排名	模型				开源情况
	GPT-5.5 思考水平·极高	85.00	2026-04-23	未知	闭源
	GPT-5.5 思考水平·高	85.00	2026-04-23	未知	闭源
	Gemini 3 Deep Think - 2620 开启思考	84.60	2026-02-13	未知	闭源
4	GPT-5.5 Pro 思考水平·高	84.60	2026-04-23	未知	闭源
5	GPT-5.5 Pro 思考水平·极高	84.20	2026-04-23	未知	闭源
6	GPT-5.4 Pro 思考水平·高	83.30	2026-03-05	未知	闭源
7	Gemini 3.1 Pro Preview 思考水平·高	77.10	2026-02-20	未知	闭源
8	GPT-5.4 常规模式	77.10	2026-03-05	未知	闭源
9	Opus 4.7 思考水平·Max	75.80	2026-04-16	未知	闭源
10	GPT-5.4 思考水平·极高	74.00	2026-03-05	未知	闭源
11	Gemini 3.5 Flash 思考水平·高工具	72.10	2026-06-20	未知	闭源
12	GPT-5.5 思考水平·中	70.40	2026-04-23	未知	闭源
13	Opus 4.7 思考水平·高	68.30	2026-04-16	未知	闭源
14	Opus 4.7 思考水平·中	67.50	2026-04-16	未知	闭源
15	Claude Opus 4.6 扩展思考	66.30	2026-02-05	未知	闭源
16	Claude Opus 4.6 思考水平·低	64.60	2026-02-05	未知	闭源
17	Opus 4.7 思考水平·低	62.10	2026-04-16	未知	闭源
18	Claude Sonnet 4.6 开启思考	58.30	2026-02-17	未知	闭源
19	GPT-5.4 思考水平·中	55.40	2026-03-05	未知	闭源
20	GPT-5.2 深度思考模式	54.20	2025-12-11	未知	闭源
21	GPT-5.2 Pro 开启思考	54.20	2025-12-11	未知	闭源
22	GPT-5.2 思考水平·极高	52.90	2025-12-11	未知	闭源
23	GPT-5.2 思考水平·高	43.30	2025-12-11	未知	闭源
24	Muse Spark 开启思考	42.50	2026-04-08	未知	闭源
25	Opus 4.5 扩展思考	37.60	2025-11-25	未知	闭源
26	Gemini 3.0 Flash 开启思考	33.60	2025-12-17	未知	闭源
27	GPT-5.5 思考水平·低	33.30	2026-04-23	未知	闭源
28	Gemini 3.0 Pro (Preview 11-2025) 开启思考	31.10	2025-11-18	未知	闭源
29	GPT-5.4 思考水平·低	29.20	2026-03-05	未知	闭源