华为开源2个Pangu大模型:分别是MoE架构,720亿总参数,160亿激活参数的Pangu Pro MoE以及Pangu Embedded,评测结果略超同级别的Qwen3
盘古大模型是华为自研的大语言模型,基于华为的硬件和技术栈进行训练。此前一直被认为是国产技术占比很高的国产大模型。今天,华为开源了2个盘古大模型,分别是MoE架构的Pangu Pro MoE模型以及70亿参数规模的Pangu Embedded模型。

这两个模型均是大语言模型,前者是MoE架构的大模型,后者是一个稠密的70亿参数大模型,虽然叫Embedded但是是推理大语言模型。
Pangu Pro MoE模型简介
华为开源的Pangu Pro MoE模型的总参数量是720亿,每次推理激活165亿。Pangu Pro MoE架构是一种混合分组专家架构,并不是传统的MoE方法。即华为将64个路由专家分8组,每次推理的时候从每组专辑中激活1个专家。而不是所有的专家随机选择。
该模型在13万亿数据上进行预训练得到,此表大小为15万个,经过了预训练和后训练阶段。模型的具体参数:
模型参数项 | 模型参数结果 |
---|---|
词汇表大小 | 153376 |
隐藏层大小 | 5120 |
Intermediate Size | 1344 |
Query Heads | 40 |
KV Heads | 8 |
Head Size | 128 |
总层数 | 48 |
路由专家数量 | 64 |
激活专家数量 | 8 |
共享专家数量 | 4 |
每次推理激活参数量 | 165亿 |
总参数量 | 719.9 亿 |
官方的论文说Pangu Pro MoE模型预训练阶段分为3个阶段,通用阶段9.6万亿数据训练,推理阶段3万亿数据训练,退火阶段0.4万亿数据训练(大模型退火是一种高级的训练技巧,它通过在训练过程中模拟物理退火“先升温、后缓降”的模式来动态调整学习率,让模型先大胆探索、再精细收敛,从而帮助模型逃离局部最优解,找到性能更好的全局最优解或接近全局最优的解)。
Pangu Embedded模型简介
Pangu Embedded 是一款专为昇腾(Ascend)NPU 设计的高效大语言模型(LLM)推理器。它的核心目标是解决当前先进推理模型普遍存在的计算成本高、推理延迟长等问题,引入了灵活的“快思慢想”能力。
记住,虽然Pangu Embedded这个模型的名字叫Pangu Embedded,但是这不是一个向量大模型,而是一个70亿参数规模的大语言模型。这是也给非MoE架构的稠密模型。
这个模型最大的特点是有类似Qwen3那种快慢思考结合的能力。在复杂场景下,通过生成推理思维链来提高模型的效果。这种快慢模式的切换提供了手动和自动的方式。模型内置了一个复杂度感知机制。当接收到一个查询时,它会首先快速评估这个问题的难度。
Pangu模型的评测结果:略超同级别最好的模型
华为也公布了这两个Pangu模型在同级别模型上的评测结果。就评测结果本身来看,同级别竞争上,Pangu模型的能力是可以的。
首先是720亿参数规模的模型对比:

从同级别的这几个测试来看(其它测试和模型数据暂无,所以只是参考):
- 综合能力最强:从数据上看,Pangu在知识、推理、数学、代码四大领域都名列前茅,但是与Qwen3-32B比略低一丢丢。
- 高阶推理能力突出:Pangu Pro MoE在GPQA Diamond评测上得分非常高,73.1,甚至略超DeepSeek-R1,比Qwen3-32B也高很多。GPQA是衡量大模型深度推理和领域专业知识问题的评测基准。
- 知识体系完善:在MMLU和MMLU Pro上的领先优势,证明了其训练数据的广度和质量,使其成为一个可靠的知识问答引擎。不过,这两个评测结果目前区分度已经不那么大了。
70亿参数的Pangu Embedded模型测试结果也非常不错:

几乎相比同级别模型都好,甚至高于Qwen3-8B的水平。
Pangu模型开源协议:免费商用授权可用,但禁止在欧盟使用
与腾讯开源的Hunyuan-A13B-Instruct类似(参考:https://www.datalearner.com/ai-models/pretrained-models/Hunyuan-A13B-Instruct ),华为开源的Pangu模型支持免费商用授权,但是开源协议中禁止在欧盟地区使用。这大概是欧盟非常严格的数据和AI相关的规定。
Pangu开源大模型总结
总的来说,华为此次开源的2个Pangu大模型十分有诚意。从参数规模上来说,算是一个不那么大但是效果还不错的模型。重要的是,这2个模型应该是全部以国产技术栈完成的。这意味着,最坏的情况下,大模型的技术发展也许可以独立自主继续。
Pangu模型的开源地址、论文和其它信息参考DataLearner模型信息卡:
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
