重磅!MetaAI开源Llama4系列,全面进入MoE架构时代,本次发布Llama4 Scout和Llama4 Maverick,1000万上下文输入,170亿激活参数,不支持中文!
就在刚刚,MetaAI发布了全新一代Llama4大模型,Llama正式进入多模态和MoE架构时代。本次新发布的是Llama4中的2个模型分别是Llama4 Scout和Llama4 Maverick。这两个模型都是170亿激活参数,但是前者共16个专家,后者有128个专家,因此总的参数量分别达到了1090亿和4000亿!不过根据评测的情况看,即使是4000亿规模170亿激活的模型,也和DeepSeek V3.1(即DeepSeek V3 0324)版本差不多。

Llama4 Scout模型介绍
Llama4 Scout是一个MoE架构的大模型,包含16个专家,每次推理激活170亿参数,因此总参数量1090亿左右。Int4量化后的版本可以用一张H100 GPU推理(按照估计,FP16应该是218GB显存,做了INT4量化应该是55G显存左右)。
Scout是侦察小队的意思,因此Meta也是寓意着这个模型会很快。
Llama4 Scout最高支持1000万上下文的输入(10 M Context),这是这个模型最大的亮点之一。Llama4 Scout在约40万亿tokens数据集上做的预训练,最新的知识截止到2024年8月份,预训练中包含200种以上的语言,不过官方依然只声明仅支持阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语,不含中文(在这个全球都难以找到如此抵制中文的大模型时代中,Llama系列始终有点奇葩,甚至可以说是不是隐含某种特别的含义?)。
Llama4 Scout模型预训练花费了大约500万个GPU小时(应该是H100)。
Llama4 Scout模型评测结果
官方将这个模型对标为Gemma3 27B和Mistral 3.1 24B等参数规模在300亿以下的模型,Llama4 Scout模型还是有优势的,而且也可以看到,Llama4 Scout模型比此前的Llama模型进步明显。

可以看到,即使与此前4050亿稠密模型Llama3.1-405B相比,Llama4 Scout也是很不错的。
Llama4 Maverick模型介绍
Llama4 Maverick是本次Meta发布的另一个模型,相比较Llama4 Scout,这个模型的激活参数也是170亿,但是有128个专家,因此,总的参数两达到了4000亿。除此之外,它和Llama4 Scout最大的区别就是预训练只训练了22万亿的数据,但是效果却更好。从这个角度看,更小的专家,在较少的数据上训练似乎也可以达到更好的效果,这好像和DeepSeek有256个专家的逻辑差不多。
Llama4 Maverick对标的是DeepSeek和GPT-4o这种级别的模型,但是评测结果看,还是有差距。

可以看到,Llama4 Maverick与其它模型还是有点差距,不过GPQA Diamond这种专业问答效果不错,比Llama4 Scout也好很多。
LLama4 Behemoth:未发布的全球最大模型
Llama 4 Behemoth是MetaAI的Llama4系列模型的教师模型,16个专家,2880亿激活参数,总参数量达到了2万亿!应该是全球最大规模的模型了。
Llama 4 Behemoth并未发布或者开源,官方透露还在训练中,但是目前评测结果还可以。下图是DataLearnerAI收集的LLama4 Behemoth与其它模型的评测对比结果:

可以看到,Llama4 Behemoth的GPQA Diamond是除了Gemini 2.5 Pro以外最强的,MATH-500也得分比较高。不过总体来说还是不特殊。不过官方说这个模型正在训练中,也许可以看看后面(根据此前Llama 3 405B,没训练完就说最大最强,发布之后水花都很小,也很一般,感觉Llama4 Behemoth也有“垮”的可能)。
Llama4总结
此次发布的Llama4模型只是这个系列中的2个,不过根据当前已有的数据,我们可以看到Llama4已经全面进入多模态和MoE架构时代。虽然这些模型依然开源(月活7亿以上需要授权),但是和DeepSeek这种模型比似乎优势不那么明显,特别是4000亿参数规模,即使量化之后也需要8个H100 GPU,那还是有点不突出的。
关于Llama4系列模型的更多信息可以参考DataLearnerAI模型信息卡:
Llama4 Scout:https://www.datalearner.com/ai-models/pretrained-models/Llama-4-Scout-Instruct
Llama4 Maverick:https://www.datalearner.com/ai-models/pretrained-models/Llama-4-Maverick-Instruct
Llama4 Behemoth:https://www.datalearner.com/ai-models/pretrained-models/Llama-4-Behemoth-Instruct
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
