DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogPangu Pro MoE
PA

Pangu Pro MoE

Pangu Pro MoE

Release date: 2025-06-30更新于: 2025-07-01 09:04:541,013
Live demoGitHubHugging FaceCompare
Parameters
719.0亿
Context length
32K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Pangu Pro MoE

Model basics

Reasoning traces
Not supported
Context length
32K tokens
Max output length
32768 tokens
Model type
聊天大模型
Release date
2025-06-30
Model file size
129.39 GB
MoE architecture
Yes
Total params / Active params
719.0B / 165B
Knowledge cutoff
No data
Inference modes
No mode data
Pangu Pro MoE

Open source & experience

Code license
CC BY-SA-4.0
Weights license
Pangu Model License Agreement Version 1.0- 免费商用授权
GitHub repo
https://gitcode.com/ascend-tribe/pangu-pro-moe
Hugging Face
https://gitcode.com/ascend-tribe/pangu-pro-moe-model
Live demo
No live demo
Pangu Pro MoE

Official resources

Paper
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity
DataLearnerAI blog
华为开源2个Pangu大模型:分别是MoE架构,720亿总参数,160亿激活参数的Pangu Pro MoE以及Pangu Embedded,评测结果略超同级别的Qwen3
Pangu Pro MoE

API details

API speed
3/5
No public API pricing yet.
Pangu Pro MoE

Benchmark Results

综合评估

3 evaluations
Benchmark / mode
Score
Rank/total
MMLUNormal
89.30
10 / 59
MMLU ProNormal
82.60
34 / 112
GPQA DiamondNormal
73.70
74 / 153

阅读理解

1 evaluations
Benchmark / mode
Score
Rank/total
DROPNormal
91.20
1 / 6

数学推理

3 evaluations
Benchmark / mode
Score
Rank/total
MATH-500Normal
96.80
14 / 42
AIME 2024Normal
79.20
32 / 62
AIME2025Normal
68.10
75 / 105

编程与软件工程

1 evaluations
Benchmark / mode
Score
Rank/total
LiveCodeBenchNormal
59.60
55 / 103
查看评测深度分析与其他模型对比
Pangu Pro MoE

Publisher

华为
华为
View publisher details
Pangu Pro MoE

Model Overview

Pangu Pro MoE 是一款基于混合专家(MoE)架构的大语言模型。传统的 MoE 模型在扩展模型尺寸时能有效降低计算成本,但也面临着专家负载不均衡的关键挑战,这会影响分布式系统上的训练和推理效率。

为了解决这一问题,研究人员开发了混合分组专家(MoGE)架构。该架构将所有专家平均分成数组,在为每个输入词元(token)选择专家时,会从每个组内选择相同数量的专家。通过这种方式,MoGE 能有效地平衡分配在不同计算设备上的计算负载,从而在训练和推理场景下提升吞吐量。

基于 MoGE 架构,Pangu Pro MoE 被构建出来,其总参数量为 720 亿,每个输入词元会激活其中的 160 亿参数。该模型在多个方面针对昇腾(Ascend)NPU 进行了优化设计,包括模型结构、推理策略、系统级并行与通信策略,以及专门优化的计算核心(如 MulAttention 和 SwiftGMM)。

模型训练

Pangu Pro MoE 的训练流程分为预训练和后训练两个阶段。

  1. 预训练:数据:模型使用了包含 13 万亿词元的高质量、多样化语料库进行预训练。阶段:预训练过程分为三个顺序阶段:通用阶段 (9.6T tokens):旨在发展模型的通用知识和语言能力。推理阶段 (3T tokens):通过增加 STEM、代码和内部数据等复杂数据的比例来提升模型的推理技能,此阶段训练序列长度从 4K 增加到 32K。退火阶段 (0.4T tokens):作为预训练到后训练的过渡,增加了指令型数据的比例,并优先选择质量和难度得分更高的数据。训练参数:整个预训练过程使用 AdamW 优化器,并分阶段采用不同的余弦学习率和批次大小策略,以确保模型稳定收敛。
  2. 后训练对齐:监督微调 (SFT):SFT 数据以 3:1 的比例侧重于推理任务,如数学解题和代码生成。训练采用两阶段渐进式优化策略,并应用了一种检查点合并技术,通过聚合来自单一 SFT 训练轨迹中不同阶段的检查点,来提升模型的鲁棒性和泛化能力。强化学习 (RL):模型采用 GRPO (Group Relative Policy Optimization) 算法进行策略学习,并引入“零优势掩码”机制来处理所有生成回复奖励相同时的训练停滞问题。此外,系统还利用一个多源奖励系统,根据任务特点(如数学、代码或开放领域写作)调用不同的评估器来提供更精细的奖励信号,并实施课程学习策略,根据模型反馈动态调整训练样本的难度组合。

性能表现

  • 基准评测:在全面的基准测试中,Pangu Pro MoE 表现出很强的竞争力。与 Qwen3-32B、GLM4-32B、Gemma3-27B 等模型相比,Pangu Pro MoE 在 MMLU、MMLU-Pro、C-Eval 等多个中英文基准以及 GSM8K、MATH-500 等推理基准上取得了领先或相当的结果。评测结果显示,该模型仅用 160 亿激活参数,便达到了与 320 亿参数规模的SOTA(state-of-the-art)模型相当的推理能力。
  • 推理效率:在昇腾 800I A2 和 300I Duo 平台上,Pangu Pro MoE(配置为 72BA16B)展现了高效的推理性能。与 32B 和 72B 的稠密模型相比,它在预填充(Prefill)阶段的吞吐量分别提升了 42% 和 203%。在解码(Decode)阶段,无论是在低并发场景下的低延迟,还是在高并发场景下的高吞吐量,它都表现出显著优势。
  • 量化性能:在 W8A8 量化配置下,模型实现了接近无损的准确率;即使在 W4A8 量化下,其精度损失也保持在可接受的范围内。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码