ARC-AGI-2 评测基准详情

人工智能(AI)的通用智能(AGI)发展一直是研究领域的焦点。近期,由 ARC Prize 基金会推出并由 AI 研究者 François Chollet 联合发起的 ARC-AGI-2 评测基准,为衡量大模型在未知情境下的实时推理能力和学习效率提供了新的视角。

ARC-AGI-2 大模型得分排行榜

数据来源:DataLearnerAI

ARC-AGI-2详细排名数据表格

排名
模型
得分
发布时间
参数(亿)
1
xAI Logo
Grok 4 thinking
15.9
2025-07-10
0.0
ARC-AGI-2得分 15.9
发布时间 2025-07-10
参数(亿) 0.0
查看模型详情
2
OpenAI Logo
GPT-5 thinking + 使用工具
9.9
2025-08-07
0.0
ARC-AGI-2得分 9.9
发布时间 2025-08-07
参数(亿) 0.0
查看模型详情
3
OpenAI Logo
GPT-5 thinking
9.9
2025-08-07
0.0
ARC-AGI-2得分 9.9
发布时间 2025-08-07
参数(亿) 0.0
查看模型详情
4
8.6
2025-05-23
未知
ARC-AGI-2得分 8.6
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
5
OpenAI Logo
OpenAI o3 thinking
6.5
2025-04-16
0.0
ARC-AGI-2得分 6.5
发布时间 2025-04-16
参数(亿) 0.0
查看模型详情
6
Google Deep Mind Logo
Gemini-2.5-Pro thinking
4.9
2025-06-05
0.0
ARC-AGI-2得分 4.9
发布时间 2025-06-05
参数(亿) 0.0
查看模型详情
7
1.3
2025-05-28
6710.0
ARC-AGI-2得分 1.3
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情