Pangu Pro MoE 是一款基于混合专家(MoE)架构的大语言模型。传统的 MoE 模型在扩展模型尺寸时能有效降低计算成本,但也面临着专家负载不均衡的关键挑战,这会影响分布式系统上的训练和推理效率。
为了解决这一问题,研究人员开发了混合分组专家(MoGE)架构。该架构将所有专家平均分成数组,在为每个输入词元(token)选择专家时,会从每个组内选择相同数量的专家。通过这种方式,MoGE 能有效地平衡分配在不同计算设备上的计算负载,从而在训练和推理场景下提升吞吐量。
基于 MoGE 架构,Pangu Pro MoE 被构建出来,其总参数量为 720 亿,每个输入词元会激活其中的 160 亿参数。该模型在多个方面针对昇腾(Ascend)NPU 进行了优化设计,包括模型结构、推理策略、系统级并行与通信策略,以及专门优化的计算核心(如 MulAttention 和 SwiftGMM)。
模型训练
Pangu Pro MoE 的训练流程分为预训练和后训练两个阶段。
- 预训练:数据:模型使用了包含 13 万亿词元的高质量、多样化语料库进行预训练。阶段:预训练过程分为三个顺序阶段:通用阶段 (9.6T tokens):旨在发展模型的通用知识和语言能力。推理阶段 (3T tokens):通过增加 STEM、代码和内部数据等复杂数据的比例来提升模型的推理技能,此阶段训练序列长度从 4K 增加到 32K。退火阶段 (0.4T tokens):作为预训练到后训练的过渡,增加了指令型数据的比例,并优先选择质量和难度得分更高的数据。训练参数:整个预训练过程使用 AdamW 优化器,并分阶段采用不同的余弦学习率和批次大小策略,以确保模型稳定收敛。
- 后训练对齐:监督微调 (SFT):SFT 数据以 3:1 的比例侧重于推理任务,如数学解题和代码生成。训练采用两阶段渐进式优化策略,并应用了一种检查点合并技术,通过聚合来自单一 SFT 训练轨迹中不同阶段的检查点,来提升模型的鲁棒性和泛化能力。强化学习 (RL):模型采用 GRPO (Group Relative Policy Optimization) 算法进行策略学习,并引入“零优势掩码”机制来处理所有生成回复奖励相同时的训练停滞问题。此外,系统还利用一个多源奖励系统,根据任务特点(如数学、代码或开放领域写作)调用不同的评估器来提供更精细的奖励信号,并实施课程学习策略,根据模型反馈动态调整训练样本的难度组合。
性能表现
- 基准评测:在全面的基准测试中,Pangu Pro MoE 表现出很强的竞争力。与 Qwen3-32B、GLM4-32B、Gemma3-27B 等模型相比,Pangu Pro MoE 在 MMLU、MMLU-Pro、C-Eval 等多个中英文基准以及 GSM8K、MATH-500 等推理基准上取得了领先或相当的结果。评测结果显示,该模型仅用 160 亿激活参数,便达到了与 320 亿参数规模的SOTA(state-of-the-art)模型相当的推理能力。
- 推理效率:在昇腾 800I A2 和 300I Duo 平台上,Pangu Pro MoE(配置为 72BA16B)展现了高效的推理性能。与 32B 和 72B 的稠密模型相比,它在预填充(Prefill)阶段的吞吐量分别提升了 42% 和 203%。在解码(Decode)阶段,无论是在低并发场景下的低延迟,还是在高并发场景下的高吞吐量,它都表现出显著优势。
- 量化性能:在 W8A8 量化配置下,模型实现了接近无损的准确率;即使在 W4A8 量化下,其精度损失也保持在可接受的范围内。