AIME 2025满分,xAI正式发布Grok模型,其中Grok 4 Heavy评测超越当前所有大模型,美国数学竞赛满分!一年3000美元订阅费!
马斯克旗下的xAI公司正式发布Grok4大模型,包含Grok 4和Grok4 Heavy版本,其中Grok4 Heavy是一个Agent系统,在AIME2025(美国的数学邀请赛)得分满分,超过了所有大模型。此前透露的Grok 4 Code和视频生成能力都没有发布。

Grok 4发布
xAI在直播中发布了Grok4大模型。与此前泄露的信息不同,Grok 4的上下文长度最高是256K(此前泄露的是128K),而且是一个多模态大模型,支持图片的输入。
Grok4模型本身的能力很强,在超难的ARC-AGI-2评测上取得了15.6的得分,是第二名Claude 4 Opus的接近2倍的成绩。

ARC-AGI-2是ARC Prize 基金会推出的评测基准,其推出的视觉逻辑谜题非常难。同时要求模型在一定的预算成本下进行测试。这意味着用很长的CoT是无法通过测试的。这可能是Grok 4 Heavy没有在这里出现的原因。
但不管怎么说,Grok4本身已经足够优秀。而且Grok4也支持更长的推理获得更好的结果,如下图所示,是Grok 4和其它模型的对比结果(感兴趣的童鞋可以去下面链接有更详细的表格数据对比):





