马斯克大模型企业xAI开源Grok-1，截止目前全球规模最大的MoE大模型，词汇表超过13万！ | DataLearnerAI

马斯克大模型企业xAI开源Grok-1，截止目前全球规模最大的MoE大模型，词汇表超过13万！ | DataLearnerAI

Grok-1模型架构参数项	Grok-1模型参数结果
架构	混合专家模型
参数总数	3140亿
专家数	8个
每个专家参数数量	430亿
每次推理激活的参数数量	860亿
开源协议	Apache 2.0
词汇表数量	131072
上下文长度	8K

对比内容	Grok-1	Mixtral 8×7B MoE
总参数	3140亿	456亿
专家数量	8	8
每个专家参数	430亿	60亿
每次激活参数数量	860亿	120 亿
半精度模型运行最低显存	628GB	92GB
每次推理速度接近的模型参数	860亿参数模型	120亿参数模型
理解综合能力（MMLU）	73	71
数学推理能力（GSM8K）	62.9	74.4