Grok-4未发布评测结果已泄露:2个版本,支持长推理输出,但是最高上下文仅132K,泄露的评测数据显示Grok4是迄今为止得分最高的大模型,甚至大幅超越Gemini 2.5 Pro!
Grok4是马斯克旗下大模型初创企业xAI的第四代大模型,在五月份的时候,马斯克就透露他们马上要发布Grok 3.5模型,六月份的时候说这个模型效果很好,版本号就直接改为4,这中间经过多次波折,最终马斯克说Grok 4将在7月4日之后发布。截止目前,虽然xAI官方没有正式宣布Grok 4,但是目前Grok 4已经透露了很多的消息。本文将对这些信息做总结和分析。

Grok 4分为2个版本,分别是常规的通用大模型和编程大模型
首先确认的是,Grok4至少包含2个版本,分别是通用大模型Grok 4和针对编程优化的Grok 4 Code。
不过最新的截图也显示,Grok4模型最高仅支持132K上下文长度,这个相比较对手的100万、200K来说都是有点低的。而Grok 3对外宣传100万上下文长度,很多人测试也表示长了之后Grok 3的效果也会下降。也许本次只是回归真正的能力。
目前官方后台的数据显示这两个模型的版本是0629版本,即grok-4-0629和grok-4-code-0629。
此外,官方的接口显示,这两个模型支持Test Time Compute,也就是在推理过程增加推理时间(或者说增加推理过程的思维链tokens的数量)来获得更好的效果。
Grok的这个模式称为TTC(Test Time Compute),而OpenAI官方则使用 low、medium和high来表示。Google的官方使用但是deeper thinking模式,叫法不同,但是都是一个意思。





