Pangu Pro MoE

聊天大模型

Pangu Pro MoE

发布时间: 2025-06-30

789

GitHub Hugging Face 在线体验

模型参数（Parameters）

719.0

最高上下文长度（Context Length）

32K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

32K tokens

最长输出结果

32768 tokens

模型类型

聊天大模型

发布时间

2025-06-30

模型预文件大小

129.39 GB

开源和体验地址

代码开源状态

CC BY-SA-4.0

预训练权重开源

Pangu Model License Agreement Version 1.0 - 免费商用授权

GitHub 源码

https://gitcode.com/ascend-tribe/pangu-pro-moe

Hugging Face

https://gitcode.com/ascend-tribe/pangu-pro-moe-model

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

DataLearnerAI博客

华为开源2个Pangu大模型：分别是MoE架构，720亿总参数，160亿激活参数的Pangu Pro MoE以及Pangu Embedded，评测结果略超同级别的Qwen3

API接口信息

接口速度（满分5分）

接口价格

暂无公开的 API 定价信息。

Pangu Pro MoE模型在各大评测榜单的评分

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总模型数

MMLU normal

89.30

10 / 59

MMLU Pro normal

82.60

28 / 105

GPQA Diamond normal

73.70

55 / 133

阅读理解

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

DROP normal

91.20

1 / 6

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总模型数

MATH-500 normal

96.80

14 / 42

AIME 2024 normal

79.20

32 / 62

AIME2025 normal

68.10

63 / 93

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

LiveCodeBench normal

59.60

46 / 94

发布机构

华为

查看发布机构详情

Pangu Pro MoE模型解读

Pangu Pro MoE 是一款基于混合专家（MoE）架构的大语言模型。传统的 MoE 模型在扩展模型尺寸时能有效降低计算成本，但也面临着专家负载不均衡的关键挑战，这会影响分布式系统上的训练和推理效率。

为了解决这一问题，研究人员开发了混合分组专家（MoGE）架构。该架构将所有专家平均分成数组，在为每个输入词元（token）选择专家时，会从每个组内选择相同数量的专家。通过这种方式，MoGE 能有效地平衡分配在不同计算设备上的计算负载，从而在训练和推理场景下提升吞吐量。

基于 MoGE 架构，Pangu Pro MoE 被构建出来，其总参数量为 720 亿，每个输入词元会激活其中的 160 亿参数。该模型在多个方面针对昇腾（Ascend）NPU 进行了优化设计，包括模型结构、推理策略、系统级并行与通信策略，以及专门优化的计算核心（如 MulAttention 和 SwiftGMM）。

模型训练

Pangu Pro MoE 的训练流程分为预训练和后训练两个阶段。

预训练：数据：模型使用了包含 13 万亿词元的高质量、多样化语料库进行预训练。阶段：预训练过程分为三个顺序阶段：通用阶段 (9.6T tokens)：旨在发展模型的通用知识和语言能力。推理阶段 (3T tokens)：通过增加 STEM、代码和内部数据等复杂数据的比例来提升模型的推理技能，此阶段训练序列长度从 4K 增加到 32K。退火阶段 (0.4T tokens)：作为预训练到后训练的过渡，增加了指令型数据的比例，并优先选择质量和难度得分更高的数据。训练参数：整个预训练过程使用 AdamW 优化器，并分阶段采用不同的余弦学习率和批次大小策略，以确保模型稳定收敛。
后训练对齐：监督微调 (SFT)：SFT 数据以 3:1 的比例侧重于推理任务，如数学解题和代码生成。训练采用两阶段渐进式优化策略，并应用了一种检查点合并技术，通过聚合来自单一 SFT 训练轨迹中不同阶段的检查点，来提升模型的鲁棒性和泛化能力。强化学习 (RL)：模型采用 GRPO (Group Relative Policy Optimization) 算法进行策略学习，并引入“零优势掩码”机制来处理所有生成回复奖励相同时的训练停滞问题。此外，系统还利用一个多源奖励系统，根据任务特点（如数学、代码或开放领域写作）调用不同的评估器来提供更精细的奖励信号，并实施课程学习策略，根据模型反馈动态调整训练样本的难度组合。

性能表现

基准评测：在全面的基准测试中，Pangu Pro MoE 表现出很强的竞争力。与 Qwen3-32B、GLM4-32B、Gemma3-27B 等模型相比，Pangu Pro MoE 在 MMLU、MMLU-Pro、C-Eval 等多个中英文基准以及 GSM8K、MATH-500 等推理基准上取得了领先或相当的结果。评测结果显示，该模型仅用 160 亿激活参数，便达到了与 320 亿参数规模的SOTA（state-of-the-art）模型相当的推理能力。
推理效率：在昇腾 800I A2 和 300I Duo 平台上，Pangu Pro MoE（配置为 72BA16B）展现了高效的推理性能。与 32B 和 72B 的稠密模型相比，它在预填充（Prefill）阶段的吞吐量分别提升了 42% 和 203%。在解码（Decode）阶段，无论是在低并发场景下的低延迟，还是在高并发场景下的高吞吐量，它都表现出显著优势。
量化性能：在 W8A8 量化配置下，模型实现了接近无损的准确率；即使在 W4A8 量化下，其精度损失也保持在可接受的范围内。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯