Pangu Pro MoE
Pangu Pro MoE is an AI model published by 华为, released on 2025-06-30, for 聊天大模型, with 719.0B parameters, and 32K tokens context length, requiring about 129.39 GB storage, under the Pangu Model License Agreement Version 1.0 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
Pangu Pro MoE currently shows benchmark results led by DROP (1 / 9, score 91.20), MMLU (13 / 64, score 89.30), MMLU Pro (37 / 116, score 82.60). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.
Pangu Pro MoE 是一款基于混合专家(MoE)架构的大语言模型。传统的 MoE 模型在扩展模型尺寸时能有效降低计算成本,但也面临着专家负载不均衡的关键挑战,这会影响分布式系统上的训练和推理效率。
为了解决这一问题,研究人员开发了混合分组专家(MoGE)架构。该架构将所有专家平均分成数组,在为每个输入词元(token)选择专家时,会从每个组内选择相同数量的专家。通过这种方式,MoGE 能有效地平衡分配在不同计算设备上的计算负载,从而在训练和推理场景下提升吞吐量。
基于 MoGE 架构,Pangu Pro MoE 被构建出来,其总参数量为 720 亿,每个输入词元会激活其中的 160 亿参数。该模型在多个方面针对昇腾(Ascend)NPU 进行了优化设计,包括模型结构、推理策略、系统级并行与通信策略,以及专门优化的计算核心(如 MulAttention 和 SwiftGMM)。
模型训练
Pangu Pro MoE 的训练流程分为预训练和后训练两个阶段。
性能表现
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
