Grok3发布!马斯克旗下大模型企业xAI发布Grok3、Grok3-mini,支持Deep Research、语音交互和“思考”模式的推理大模型,推理模式评测结果全球最强
今天马斯克旗下的xAI公司发布了最新一代大语言模型Grok3,基于20万张GPU集群训练,各方面的提升都非常明显。在主流评测上都超过了现有的大模型。
Grok-3系列模型介绍
Grok-3系列模型分为2个版本,分别是Grok-3和Grok-3 mini,官方没有公布参数等信息。这两个版本的模型都支持推理模式,其中Grok-3 mini的Reasoning版本已经训练完成,而Grok-3 Reasoning目前是beta版本,并未正式发布。
Grok-3系列模型应该是普通的大模型和推理大模型的结合。其推理模式可以使用更长的推理时间和tokens来完成更加复杂的任务。但是官方没有给出不同的版本名称,也不确定是独立的推理大模型还是2种模式都支持的大模型类型。
根据马斯克透露的消息,当前xAI已经建成了20万卡集群的算力中心。从0开始搭建10万的集群用了192天,但是10万到20万集群的扩展只用了90多天时间,可见基础设施的扩展非常顺利且更为迅速。尽管,此前DeepSeek系列模型可以通过更低的训练成本完成高质量大模型的训练,但是马斯克的模型结果证明,更大更强的算力始终是有优势的。
评测结果大幅超过GPT-4o,打败了所有非推理模型
官方给出了Grok-3系列模型在不同评测的对比结果。主要是数学推理(AIME 2024)、科学事实(GPQA)以及编程(LCB)方面的评测结果。它们简单介绍如下:
AIME 2024:AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。详情参考: GPQA:这里的测试应该是GPQA Diamond,基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力,详情参考: LCB:这应该是Leet Code的测试,测试代码生成能力。







