LL

Llama 4 Maverick

多模态大模型

Llama-4-Maverick-17B-128E

发布时间: 2025-04-05更新于: 2025-04-15 16:27:281,024

在线体验GitHub Hugging Face Compare

模型参数

4000.0亿

上下文长度

1000K

中文支持

支持

推理能力

Llama-4-Maverick-17B-128E 是由 Facebook AI研究实验室发布的 AI 模型，发布时间为 2025-04-05，定位为多模态大模型，参数规模约为 4000.0B，上下文长度为 1000K，模型文件大小约 218GB，采用 Llama4 License 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Llama 4 Maverick

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

1000K tokens

最大输出长度

4096 tokens

模型类型

多模态大模型

发布时间

2025-04-05

模型文件大小

218GB

MoE架构

否

总参数 / 激活参数

4000.0 亿 / 不涉及

知识截止

暂无数据

Llama 4 Maverick

开源和体验地址

代码开源状态

预训练权重开源

Llama4 License- 免费商用授权

GitHub 源码

https://github.com/meta-llama/llama-models/tree/main/models/llama4

Hugging Face

https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E

在线体验

暂无在线体验地址

Llama 4 Maverick

官方介绍与博客

官方论文

The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation

DataLearnerAI博客

暂无介绍博客

Llama 4 Maverick

API接口信息

接口速度

4/5

暂无公开的 API 定价信息。

Llama 4 Maverick

评测结果

Llama 4 Maverick 当前已收录的代表性评测结果包括 MBPP（13 / 28，得分 77.60）、MMLU（37 / 64，得分 85.50）、MATH（30 / 42，得分 61.20）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 2 项评测

评测名称 / 模式

得分

排名/总数

关闭

85.50

37 / 64

关闭

62.90

93 / 116

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

关闭

77.60

13 / 28

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

关闭

61.20

30 / 42

关闭

0.70

49 / 54

查看评测深度分析与其他模型对比

Llama 4 Maverick

发布机构

Facebook AI研究实验室

查看发布机构详情

Llama-4-Maverick-17B-128E

模型解读

Llama 4 Maverick是MetaAI开源的一款基于MoE架构的大模型。该模型拥有170亿活跃参数，并配备了128个专家单元，总参数量达到4000亿，其设计旨在通过专家路由机制提升模型在多模态任务中的性能，同时保持较高的计算效率。

架构设计与专家路由机制

在Llama 4 Maverick中，每个输入标记仅激活部分专家单元，这种混合专家（MoE）设计使得模型在训练和推理过程中能够以更低的计算成本实现更高的表现。与传统密集模型不同，Maverick在处理输入时会动态选择最合适的专家，确保在复杂任务下保持高效性和灵活性。这种策略不仅降低了资源消耗，同时在面对不同模态和任务需求时，能够实现更精细的参数调度。

多模态融合与视觉理解

Llama 4 Maverick同样具备强大的多模态能力。通过早期融合策略，该模型将文本、图像及视频数据无缝集成到统一的模型骨干中，使其在跨模态信息处理上表现优异。视觉编码器部分参考了先进的MetaCLIP架构，并经过专门训练以适应与语言模型的深度融合，从而在图像标注、视觉问答及多图像理解任务中均展现出较高的准确性和鲁棒性。

高效训练策略与后期优化

在训练阶段，Llama 4 Maverick通过采用交替使用密集层和MoE层的策略，实现了推理效率与模型性能之间的平衡。模型在预训练阶段利用低精度（FP8）训练技术，在保证质量的前提下显著提高了浮点运算效率。其训练数据涵盖了多种语言和大规模多模态数据，确保模型在面对不同领域和任务时均具备良好的泛化能力。

后期训练方面，Llama 4 Maverick采用了轻量级监督微调、在线强化学习（RL）以及直接偏好优化（DPO）等多阶段优化策略。通过在线强化学习阶段的动态数据过滤和难度提升策略，模型在逻辑推理、代码理解和复杂任务的应对上均获得了显著提升，同时保持了优异的多模态交互能力。

长上下文与模型规模优势

相比于上一代产品，Llama 4 Maverick在长上下文处理上也有了明显进步。虽然主要定位为多模态通用模型，其设计在大规模上下文处理上同样表现出色，为复杂对话和大规模文档分析提供了坚实的技术支撑。128个专家单元的设计使得模型在处理大规模输入时，不仅能保持高效推理，还能通过专家路由机制精准分配计算资源，进一步优化整体性能。

开源战略与应用前景

作为MetaAI开源战略的重要成果，Llama 4 Maverick不仅代表了当前多模态大模型技术的前沿水平，也为研究者和开发者提供了一个高性能、高扩展性的实验平台。得益于其单机NVIDIA H100 GPU部署能力，Maverick能够在保持高性能的同时，降低实际应用中的部署成本。这为包括智能助理、跨模态内容生成、复杂代码分析等多个场景带来了更多可能性，同时推动了多模态人工智能技术的普及与发展。

总体而言，Llama 4 Maverick凭借其先进的MoE架构、动态专家路由机制、多模态融合策略和多阶段训练优化，展现了MetaAI在大规模、多模态模型研发领域的技术实力。其开放源码策略和高效计算设计，为未来各种创新应用提供了坚实的基础，是当前开源大模型技术的重要里程碑。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码