Ll

Llama 4 Scout

多模态大模型

Llama 4 Scout

发布时间: 2025-04-05

模型参数(Parameters)
1090.0
最高上下文长度(Context Length)
1000K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

1000K tokens

最长输出结果

4096 tokens

模型类型

多模态大模型

发布时间

2025-04-05

模型预文件大小

218GB

开源和体验地址

代码开源状态
预训练权重开源
Llama4 License - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
接口价格
输入价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:
输出价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:

输入支持的模态

文本

输入支持

图片

输入支持

视频

输入支持

音频

输入支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Llama 4 Scout模型在各大评测榜单的评分

评测基准名称
MMLU
(知识问答)
评测结果:79.6
评测基准名称
MMLU Pro
(知识问答)
评测结果:58.2
评测基准名称
MBPP
(代码生成)
评测结果:67.8
评测基准名称
MATH
(数学推理)
评测结果:50.3

发布机构

Facebook AI研究实验室
Facebook AI研究实验室
查看发布机构详情

模型介绍

Llama 4 Scout是MetaAI开源的一个MoE架构的大模型。根据MetaAI发布的介绍,该模型具有170亿活跃参数和16个专家单元,总参数量达到1090亿。作为一款专注于多模态任务的模型,Llama 4 Scout在文本和视觉信息的融合方面进行了专门设计,通过早期融合技术,将文本和图像的输入整合到统一的模型骨干中,从而支持联合预训练,并提升多模态处理的能力。

从架构上看,Llama 4 Scout采用了混合专家(MoE)设计,这意味着在处理每个输入标记时,只有一部分参数会被激活,从而在保证计算效率的同时获得较高的模型质量。该模型在训练过程中通过使用FP8精度、跨多种数据(包括超过200种语言的大规模语料、图像及视频数据)以及专门针对长文本优化的中期训练策略,实现了行业领先的上下文窗口长度,最高可扩展至1000万标记。

在后期训练方面,模型借助轻量级的监督微调、在线强化学习以及直接偏好优化等方法,对模型在推理、长文本处理和多模态任务中的表现进行了进一步优化。通过这些技术手段,Llama 4 Scout不仅在代码理解、逻辑推理以及多图像输入任务上展现出良好的性能,还在保持单卡部署能力的前提下,实现了高效的资源利用和较低的部署成本。

总体来看,Llama 4 Scout体现了MetaAI在大规模多模态模型研发中的技术积累,其开放源码和高效的MoE架构设计为研究者和开发者提供了一个具备较高灵活性和扩展性的模型工具,有助于推动相关领域技术的进一步探索和应用。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat