ARC-AGI-2

ARC-AGI-2

极具挑战性的大模型通用能力评测基准

英文 难度:高难度

主要统计信息

问题数量

1000

机构

个人

类别

综合评估

评估指标

Accuracy

ARC-AGI-2基准测试简介

人工智能(AI)的通用智能(AGI)发展一直是研究领域的焦点。近期,由 ARC Prize 基金会推出并由 AI 研究者 François Chollet 联合发起的 ARC-AGI-2 评测基准,为衡量大模型在未知情境下的实时推理能力和学习效率提供了新的视角。

ARC-AGI-2 大模型得分排行榜

冠军
亚军
季军
其他排名

详细排名数据表格

模型简称 ARC-AGI-2得分 发布机构 发布时间 参数规模(亿)
Grok 4 15.9 xAI Logo 2025-07-10 0.0
Claude Opus 4 8.6 Anthropic Logo 2025-05-23 未知
OpenAI o3 6.5 OpenAI Logo 2025-04-16 未知
Gemini-2.5-Pro-Preview-06-05 4.9 Google Deep Mind Logo 2025-06-05 未知
DeepSeek-R1-0528 1.3 DeepSeek-AI Logo 2025-05-28 6850.0
得分:
15.9
发布时间:
2025-07-10
参数规模(亿):
0.0
得分:
8.6
发布时间:
2025-05-23
参数规模(亿):
未知
得分:
6.5
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
4.9
发布时间:
2025-06-05
参数规模(亿):
未知
得分:
1.3
发布时间:
2025-05-28
参数规模(亿):
6850.0