马斯克大模型企业xAI开源Grok-1,截止目前全球规模最大的MoE大模型,词汇表超过13万!
此前,马斯克在推特上宣布要开源旗下大模型公司开发的Grok-1大语言模型。一周后的现在,这个模型Grok-1正式宣布以Apache2.0开源协议开源,本文将针对Grok-1的技术部分进行介绍。

Grok-1简介
Grok-1是马斯克旗下大模型企业xAI的首个大语言模型商业产品。但他们最早训练的大模型是Grok-0,Grok-0是一个330亿参数的规模较小的模型,它用了Llama2-70B一半的硬件资源就达到了Llama2-70B的水平。因此,xAI研发人员很有信心,继续开发了Grok-1。

Grok-1最早在2023年11月初公开,随后在X平台上使用。此次开源后,Grok-1成为了目前开源大模型中参数最高的一个(除去此前反响平平的1.6万亿的谷歌大模型)。而更重要的是,这也是一个混合专家架构的模型,类似Mixtral 8×7B MoE模型(参考:https://www.datalearner.com/ai-models/pretrained-models/Mistral-7B-MoE )。具体来说,Grok-1模型参数如下:

