Pangu Pro MoE
Pangu Pro MoE 是由 华为 发布的 AI 模型,发布时间为 2025-06-30,定位为 聊天大模型,参数规模约为 719.0B,上下文长度为 32K,模型文件大小约 129.39 GB,采用 Pangu Model License Agreement Version 1.0 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
Pangu Pro MoE 当前已收录的代表性评测结果包括 DROP(1 / 9,得分 91.20)、MMLU(13 / 64,得分 89.30)、MMLU Pro(37 / 116,得分 82.60)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
Pangu Pro MoE 是一款基于混合专家(MoE)架构的大语言模型。传统的 MoE 模型在扩展模型尺寸时能有效降低计算成本,但也面临着专家负载不均衡的关键挑战,这会影响分布式系统上的训练和推理效率。
为了解决这一问题,研究人员开发了混合分组专家(MoGE)架构。该架构将所有专家平均分成数组,在为每个输入词元(token)选择专家时,会从每个组内选择相同数量的专家。通过这种方式,MoGE 能有效地平衡分配在不同计算设备上的计算负载,从而在训练和推理场景下提升吞吐量。
基于 MoGE 架构,Pangu Pro MoE 被构建出来,其总参数量为 720 亿,每个输入词元会激活其中的 160 亿参数。该模型在多个方面针对昇腾(Ascend)NPU 进行了优化设计,包括模型结构、推理策略、系统级并行与通信策略,以及专门优化的计算核心(如 MulAttention 和 SwiftGMM)。
模型训练
Pangu Pro MoE 的训练流程分为预训练和后训练两个阶段。
性能表现
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
