AIME 2025满分,xAI正式发布Grok模型,其中Grok 4 Heavy评测超越当前所有大模型,美国数学竞赛满分!一年3000美元订阅费!
马斯克旗下的xAI公司正式发布Grok4大模型,包含Grok 4和Grok4 Heavy版本,其中Grok4 Heavy是一个Agent系统,在AIME2025(美国的数学邀请赛)得分满分,超过了所有大模型。此前透露的Grok 4 Code和视频生成能力都没有发布。

Grok 4发布
xAI在直播中发布了Grok4大模型。与此前泄露的信息不同,Grok 4的上下文长度最高是256K(此前泄露的是128K),而且是一个多模态大模型,支持图片的输入。
Grok4模型本身的能力很强,在超难的ARC-AGI-2评测上取得了15.6的得分,是第二名Claude 4 Opus的接近2倍的成绩。

ARC-AGI-2是ARC Prize 基金会推出的评测基准,其推出的视觉逻辑谜题非常难。同时要求模型在一定的预算成本下进行测试。这意味着用很长的CoT是无法通过测试的。这可能是Grok 4 Heavy没有在这里出现的原因。
但不管怎么说,Grok4本身已经足够优秀。而且Grok4也支持更长的推理获得更好的结果,如下图所示,是Grok 4和其它模型的对比结果(感兴趣的童鞋可以去下面链接有更详细的表格数据对比):

这三个评测都是难度非常高的评测结果,GPQA Diamond则是高难度的涵盖生物、物理、化学三个 STEM 领域的多选题。
Grok4 Heavy:一个多智能体系统
本次发布的一个亮点是Grok4 Heavy系统,这是一个多智能体协作的系统,在官方扩展了10倍的推理时间,多个智能体独立且并行运行,最终汇聚所有结果后选择最好的解决方案。
效果也很明显,Grok 4 Heavy在HLE中获得了50分的高分(HLE全称是Humanity’s Last Exam,题目来自全球的专家人工选择,难度非常高,具体参考:https://www.datalearner.com/ai-models/llm-benchmark-tests/31, 在AIME 2025中达到了100分的满分。
AIME 2025 是一个评测数据集,题目来自美国的数学邀请赛 (AIME)。这个 AIME 竞赛本身难度就很高,主要是给那些在 AMC(美国数学竞赛)中表现出色的高中生准备的。题目覆盖代数、几何、数论、组合数学等,解题往往需要好几步推理,还得有点巧思。

从这个对比看,不管是Grok 4模型本身,还是多智能体系统Grok4 Heavy,它们在评测结果上都是最强的。超过了此前最好的Gemini 2.5 Pro和OpenAI的o3模型。

具体数据:
评测基准 (Benchmark) | Grok 4 Heavy | Grok 4 | Gemini-2.5-Pro-Preview-06-05 | Claude Opus 4 | OpenAI o3 |
---|---|---|---|---|---|
HLE(知识问答) | 50.00 | 35.00 | 21.60 | 10.70 | 20.32 |
GPQA Diamond(常识推理) | 88.90 | 87.00 | 86.40 | 79.60 | 83.30 |
AIME2025(数学推理) | 100.00 | 95.00 | 88.00 | 75.50 | 88.70 |
ARC-AGI-2(综合评估) | 0.00 | 15.90 | 4.90 | 8.60 | 6.50 |
Grok 4的接口很便宜,但是Grok 4 Heavy非常贵
API接口的输入价格为3美元/100万tokens输入,15美元/100万tokens输出。价格和Grok 3持平,没有涨价。
但是,前面提到的多智能体Grok 4 Heavy目前仅在网页可以使用,但是需要开通3000美元一年的SuperGrok Heavy会员才能使用,可以说价格非常贵!

此外,与之前Grok 3免费使用不同,随着订阅计划的升级,Grok 4仅付费用户可用,也就是说至少一年300美元才能使用Grok4。尽管如此,大家也可以在LMArena上去体验免费的Grok4(目前Grok4消失,但估计很快回归)。
未来四个月每个月Grok都有新的产品或者特性
此次发布的Grok4仅仅包含Grok4模型,大家也可以在官网使用。而Grok 4 Heavy多智能体系统虽然宣布了,但目前不可用。同时,此前泄露的编程模型Grok 4 Code、视频生成能力都没有出现。不过,直播最后,xAI公告了未来4个月的产品节奏。

也就是说,8月份Grok 4 Code发布,9月份发布多智能体新系统Grok 4 Heavy,10月份发布视频生成的大模型。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
