Grok-4未发布评测结果已泄露：2个版本，支持长推理输出，但是最高上下文仅132K，泄露的评测数据显示Grok4是迄今为止得分最高的大模型，甚至大幅超越Gemini 2.5 Pro！

Grok4是马斯克旗下大模型初创企业xAI的第四代大模型，在五月份的时候，马斯克就透露他们马上要发布Grok 3.5模型，六月份的时候说这个模型效果很好，版本号就直接改为4，这中间经过多次波折，最终马斯克说Grok 4将在7月4日之后发布。截止目前，虽然xAI官方没有正式宣布Grok 4，但是目前Grok 4已经透露了很多的消息。本文将对这些信息做总结和分析。

Grok 4分为2个版本，分别是常规的通用大模型和编程大模型

首先确认的是，Grok4至少包含2个版本，分别是通用大模型Grok 4和针对编程优化的Grok 4 Code。

不过最新的截图也显示，Grok4模型最高仅支持132K上下文长度，这个相比较对手的100万、200K来说都是有点低的。而Grok 3对外宣传100万上下文长度，很多人测试也表示长了之后Grok 3的效果也会下降。也许本次只是回归真正的能力。

目前官方后台的数据显示这两个模型的版本是0629版本，即grok-4-0629和grok-4-code-0629。

此外，官方的接口显示，这两个模型支持Test Time Compute，也就是在推理过程增加推理时间（或者说增加推理过程的思维链tokens的数量）来获得更好的效果。

Grok的这个模式称为TTC（Test Time Compute），而OpenAI官方则使用 low、medium和high来表示。Google的官方使用但是deeper thinking模式，叫法不同，但是都是一个意思。

Grok-4的评测超过Gemini 2.5 Pro，全球第一

尽管xAI还没有正式发布Grok4，但是大家已经从接口中发现了Grok 4模型的评测数据了。透露评测数据看，Grok 4模型在各个方面都超越了当前模型的效果。甚至在很高难度的HLE评测上，大幅领先市面上的模型，是第二名得分的2倍以上！

如下图所示，是Grok 4和其它模型的对比结果（感兴趣的童鞋可以去下面链接有更详细的表格数据对比）：

数据来源：https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?benchmarkInputString=31,32,42&modelInputString=615,611,578,558,576,574,575

这三个评测都是难度非常高的评测结果，其中HLE是2-3000个非常难的跨学科问题，GPQA Diamond则是高难度的涵盖生物、物理、化学三个 STEM 领域的多选题，而AIME 2025是一项难度仅次于美国数学奥林匹克（USAMO）的高中数学竞赛，强调技巧与多步推理。

从这个结果，我们可以看出Grok4模型的强大：

在高难度知识领域的绝对领先优势： HLE（知识问答）并非普通问答，而是一个由专家筛选、难度极高的评测集。从所有模型的得分普遍偏低可以看出这一点。在此背景下，Grok-4 (TTC)的45.00分和Grok 4的35.00分不仅不是弱项，反而是绝对的强项。Grok-4 (TTC)的分数是第三名（Gemini-2.5-Pro）的两倍多，而Grok 4也大幅领先。
无可匹敌的数学推理能力：在AIME2025（数学推理）这项评测中，Grok 4的95.00分是其最耀眼的表现，可谓一骑绝尘。这个分数不仅远超所有其他顶级模型，也是目前唯一超过90分的模型。

这里，我们提供一个HLE的排行榜截图，大家可以更加清晰感受到Grok 4的强大！