DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Home/
  2. Blog List/
  3. Blog Detail

马斯克大模型企业xAI开源Grok-1,截止目前全球规模最大的MoE大模型,词汇表超过13万!

2024/03/18 17:19:49
1,062 views
GrokGrok-1xAI马斯克

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

马斯克旗下xAI发布Grok-1.5,相比较开源的Grok-1,各项性能大幅提升,接近GPT-4!重磅!马斯克宣布本周开源xAI开发的大语言模型Grok!马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力?新消息泄露该模型支持2.5万个字符上下文!马斯克创造的新的大模型企业xAI的大模型GrokAI模型评测结果出炉~MMLU与代码评分超过ChatGPT-3.5AIME 2025满分,xAI正式发布Grok模型,其中Grok 4 Heavy评测超越当前所有大模型,美国数学竞赛满分!一年3000美元订阅费!Grok-4未发布评测结果已泄露:2个版本,支持长推理输出,但是最高上下文仅132K,泄露的评测数据显示Grok4是迄今为止得分最高的大模型,甚至大幅超越Gemini 2.5 Pro!

Hot Blogs

1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)2回归模型中的交互项简介(Interactions in Regression)3贝塔分布(Beta Distribution)简介及其应用4矩母函数简介(Moment-generating function)5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程6使用R语言进行K-means聚类并分析结果7深度学习技巧之Early Stopping(早停法)8H5文件简介和使用9手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署10Wishart分布简介

此前,马斯克在推特上宣布要开源旗下大模型公司开发的Grok-1大语言模型。一周后的现在,这个模型Grok-1正式宣布以Apache2.0开源协议开源,本文将针对Grok-1的技术部分进行介绍。

  • Grok-1简介
  • Grok-1的表现
  • Grok-1的推理资源要求
  • Grok-1总结

Grok-1简介

Grok-1是马斯克旗下大模型企业xAI的首个大语言模型商业产品。但他们最早训练的大模型是Grok-0,Grok-0是一个330亿参数的规模较小的模型,它用了Llama2-70B一半的硬件资源就达到了Llama2-70B的水平。因此,xAI研发人员很有信心,继续开发了Grok-1。

Grok-1最早在2023年11月初公开,随后在X平台上使用。此次开源后,Grok-1成为了目前开源大模型中参数最高的一个(除去此前反响平平的1.6万亿的谷歌大模型)。而更重要的是,这也是一个混合专家架构的模型,类似Mixtral 8×7B MoE模型(参考:https://www.datalearner.com/ai-models/pretrained-models/Mistral-7B-MoE )。具体来说,Grok-1模型参数如下:

Grok-1模型架构参数项Grok-1模型参数结果
架构混合专家模型
参数总数3140亿
专家数8个
每个专家参数数量430亿
每次推理激活的参数数量860亿
开源协议Apache 2.0
词汇表数量131072
上下文长度8K

不过,需要注意的是,Grok-1的训练是在xAI团队自己搭建的平台上,基于JAX等先进的基础设施。本次开源的只有Grok-1的推理代码,不包含训练代码!

Grok-1的表现

首先,根据11月份透露的数据,Grok-1模型在各项评测结果中表现不错,但并不算突出。其MMLU得分73分,应该说得分超过了GPT-3.5,但是不如Qwen-72B。而数学推理(GSM8K)方面表现更差,不如60亿参数规模的ChatGLM3-6B。要知道,Grok-1的模型总参数是3140亿,每次激活860亿,这个水平相比较而言应该说不令人满意。

上述数据是按照参数大小排序,可以看到这是目前开源中参数规模最高的大模型了。排第二的开源模型是阿里巴巴的720亿参数规模的Qwen-72B。具体数据参考:https://www.datalearner.com/ai-models/llm-evaluation

Grok-1的推理资源要求

从上面的分析可以看到,Grok-1是一个不错的模型,但是与同类相比劣势比较明显。主要就是在于它资源消耗更大,但是没有获得相应的收益。以它和Mixtral 8×7B MoE模型对比(二者都是混合专家模型):

对比内容Grok-1Mixtral 8×7B MoE
总参数3140亿456亿
专家数量88
每个专家参数430亿60亿
每次激活参数数量860亿120 亿
半精度模型运行最低显存628GB92GB
每次推理速度接近的模型参数860亿参数模型120亿参数模型
理解综合能力(MMLU)7371
数学推理能力(GSM8K)62.974.4

从上述简单对比可以看到,Grok-1用了远比Mixtral 8×7B MoE模型更多的资源,结果就是MMLU评测略高,而数学推理还不如Mixtral 8×7B MoE。

Grok-1总结

尽管Grok-1已经开源。但是也些关键信息并没有透露。首先,xAI宣称他们是基于一套高效的基础设施进行训练的。这套高效的基础设施架构并未透露。另外,就tokenizer来说,Grok-1包含了13万个tokens,远超Llama系列。而且tokenizer中出来特殊的"[PAD]"、"[BOS]"、"[EOS]"、"[UNK]"外,还有此前**大家没见过的"<|controlX|>"token,这里的X是1-20,它的作用并不清楚**。联想到Grok-1本身作为基础模型,有super prompt、新闻等特殊能力,这部分是不是可能会影响也不知道。原因就是Grok-1的训练代码没有公布。

关于Grok-1的SuperPrompt等能力介绍参考此前的内容:https://www.datalearner.com/blog/1051699114783001

不管怎么说,Grok-1里面还是有新的东西的。至少从主流开源模型的效果看,Grok-1虽然还可以,但不够惊艳。