Llama 4 Maverick

Name: Llama-4-Maverick-17B-128E
Availability: InStock
Author: Facebook AI研究实验室

多模态大模型

Llama-4-Maverick-17B-128E

Release date: 2025-04-05更新于: 2025-04-15 16:27:281,033

Live demoGitHub Hugging Face Compare

Parameters

4000.0亿

Context length

1000K

Chinese support

Supported

Reasoning ability

Llama-4-Maverick-17B-128E is an AI model published by Facebook AI研究实验室, released on 2025-04-05, for 多模态大模型, with 4000.0B parameters, and 1000K tokens context length, requiring about 218GB storage, under the Llama4 License license.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Llama 4 Maverick

Model basics

Reasoning traces

Not supported

Thinking modes

Thinking modes not supported

Context length

1000K tokens

Max output length

4096 tokens

Model type

多模态大模型

Release date

2025-04-05

Model file size

218GB

MoE architecture

Total params / Active params

4000.0B / N/A

Knowledge cutoff

No data

Llama 4 Maverick

Open source & experience

Code license

Llama4 License

Weights license

Llama4 License- 免费商用授权

GitHub repo

https://github.com/meta-llama/llama-models/tree/main/models/llama4

Hugging Face

https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E

Live demo

No live demo

Llama 4 Maverick

Official resources

Paper

The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation

DataLearnerAI blog

No blog post yet

Llama 4 Maverick

API details

API speed

4/5

No public API pricing yet.

Llama 4 Maverick

Benchmark Results

Llama 4 Maverick currently shows benchmark results led by MBPP (13 / 28, score 77.60), MMLU (38 / 65, score 85.50), MATH (30 / 42, score 61.20). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

综合评估

2 evaluations

Benchmark / mode

Score

Rank/total

ARC-AGI

Thinking Mode

4.40

53 / 55

ARC-AGI-2

Thinking Mode

46 / 48

OpenClaw智能体能力综合测评

1 evaluations

Benchmark / mode

Score

Rank/total

Pinch Bench

Thinking ModeTools

46.10

36 / 37

View benchmark analysis Compare with other models

Llama 4 Maverick

Publisher

Facebook AI研究实验室

View publisher details

Llama-4-Maverick-17B-128E

Model Overview

Llama 4 Maverick是MetaAI开源的一款基于MoE架构的大模型。该模型拥有170亿活跃参数，并配备了128个专家单元，总参数量达到4000亿，其设计旨在通过专家路由机制提升模型在多模态任务中的性能，同时保持较高的计算效率。

架构设计与专家路由机制

在Llama 4 Maverick中，每个输入标记仅激活部分专家单元，这种混合专家（MoE）设计使得模型在训练和推理过程中能够以更低的计算成本实现更高的表现。与传统密集模型不同，Maverick在处理输入时会动态选择最合适的专家，确保在复杂任务下保持高效性和灵活性。这种策略不仅降低了资源消耗，同时在面对不同模态和任务需求时，能够实现更精细的参数调度。

多模态融合与视觉理解

Llama 4 Maverick同样具备强大的多模态能力。通过早期融合策略，该模型将文本、图像及视频数据无缝集成到统一的模型骨干中，使其在跨模态信息处理上表现优异。视觉编码器部分参考了先进的MetaCLIP架构，并经过专门训练以适应与语言模型的深度融合，从而在图像标注、视觉问答及多图像理解任务中均展现出较高的准确性和鲁棒性。

高效训练策略与后期优化

在训练阶段，Llama 4 Maverick通过采用交替使用密集层和MoE层的策略，实现了推理效率与模型性能之间的平衡。模型在预训练阶段利用低精度（FP8）训练技术，在保证质量的前提下显著提高了浮点运算效率。其训练数据涵盖了多种语言和大规模多模态数据，确保模型在面对不同领域和任务时均具备良好的泛化能力。

后期训练方面，Llama 4 Maverick采用了轻量级监督微调、在线强化学习（RL）以及直接偏好优化（DPO）等多阶段优化策略。通过在线强化学习阶段的动态数据过滤和难度提升策略，模型在逻辑推理、代码理解和复杂任务的应对上均获得了显著提升，同时保持了优异的多模态交互能力。

长上下文与模型规模优势

相比于上一代产品，Llama 4 Maverick在长上下文处理上也有了明显进步。虽然主要定位为多模态通用模型，其设计在大规模上下文处理上同样表现出色，为复杂对话和大规模文档分析提供了坚实的技术支撑。128个专家单元的设计使得模型在处理大规模输入时，不仅能保持高效推理，还能通过专家路由机制精准分配计算资源，进一步优化整体性能。

开源战略与应用前景

作为MetaAI开源战略的重要成果，Llama 4 Maverick不仅代表了当前多模态大模型技术的前沿水平，也为研究者和开发者提供了一个高性能、高扩展性的实验平台。得益于其单机NVIDIA H100 GPU部署能力，Maverick能够在保持高性能的同时，降低实际应用中的部署成本。这为包括智能助理、跨模态内容生成、复杂代码分析等多个场景带来了更多可能性，同时推动了多模态人工智能技术的普及与发展。

总体而言，Llama 4 Maverick凭借其先进的MoE架构、动态专家路由机制、多模态融合策略和多阶段训练优化，展现了MetaAI在大规模、多模态模型研发领域的技术实力。其开放源码策略和高效计算设计，为未来各种创新应用提供了坚实的基础，是当前开源大模型技术的重要里程碑。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送