AIME 2025满分，xAI正式发布Grok模型，其中Grok 4 Heavy评测超越当前所有大模型，美国数学竞赛满分！一年3000美元订阅费！

马斯克旗下的xAI公司正式发布Grok4大模型，包含Grok 4和Grok4 Heavy版本，其中Grok4 Heavy是一个Agent系统，在AIME2025（美国的数学邀请赛）得分满分，超过了所有大模型。此前透露的Grok 4 Code和视频生成能力都没有发布。

Grok 4发布

xAI在直播中发布了Grok4大模型。与此前泄露的信息不同，Grok 4的上下文长度最高是256K（此前泄露的是128K），而且是一个多模态大模型，支持图片的输入。

Grok4模型本身的能力很强，在超难的ARC-AGI-2评测上取得了15.6的得分，是第二名Claude 4 Opus的接近2倍的成绩。

ARC-AGI-2是ARC Prize 基金会推出的评测基准，其推出的视觉逻辑谜题非常难。同时要求模型在一定的预算成本下进行测试。这意味着用很长的CoT是无法通过测试的。这可能是Grok 4 Heavy没有在这里出现的原因。

但不管怎么说，Grok4本身已经足够优秀。而且Grok4也支持更长的推理获得更好的结果，如下图所示，是Grok 4和其它模型的对比结果（感兴趣的童鞋可以去下面链接有更详细的表格数据对比）：

数据来源：https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?benchmarkInputString=31,32,42&modelInputString=615,611,578,558,576,574,575

这三个评测都是难度非常高的评测结果，GPQA Diamond则是高难度的涵盖生物、物理、化学三个 STEM 领域的多选题。

Grok4 Heavy：一个多智能体系统

本次发布的一个亮点是Grok4 Heavy系统，这是一个多智能体协作的系统，在官方扩展了10倍的推理时间，多个智能体独立且并行运行，最终汇聚所有结果后选择最好的解决方案。

效果也很明显，Grok 4 Heavy在HLE中获得了50分的高分（HLE全称是Humanity’s Last Exam，题目来自全球的专家人工选择，难度非常高，具体参考：https://www.datalearner.com/ai-models/llm-benchmark-tests/31，在AIME 2025中达到了100分的满分。

AIME 2025 是一个评测数据集，题目来自美国的数学邀请赛 (AIME)。这个 AIME 竞赛本身难度就很高，主要是给那些在 AMC（美国数学竞赛）中表现出色的高中生准备的。题目覆盖代数、几何、数论、组合数学等，解题往往需要好几步推理，还得有点巧思。

数据来源DataLearnerAI大模型评测：https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?benchmarkInputString=31,32,42,43&modelInputString=620,611,558,578,575

从这个对比看，不管是Grok 4模型本身，还是多智能体系统Grok4 Heavy，它们在评测结果上都是最强的。超过了此前最好的Gemini 2.5 Pro和OpenAI的o3模型。

数据来源：https://www.datalearner.com/ai-models/llm-benchmark-tests/31

具体数据：

评测基准 (Benchmark)	Grok 4 Heavy	Grok 4	Gemini-2.5-Pro-Preview-06-05	Claude Opus 4	OpenAI o3
HLE(知识问答)	50.00	35.00	21.60	10.70	20.32
GPQA Diamond(常识推理)	88.90	87.00	86.40	79.60	83.30
AIME2025(数学推理)	100.00	95.00	88.00	75.50	88.70
ARC-AGI-2(综合评估)	0.00	15.90	4.90	8.60	6.50