模型压缩新选择——ZeroQuant提升模型压缩效率5.2倍

原文摘要：由于对强大的云服务器的内存/计算要求令人望而却步，如何在实践中高效地服务训练有素的自然语言模型也变得异常具有挑战性。在本工作中，我们提出了一种高效且经济实惠的训练后量化方法来压缩基于变压器的大型模型，称为零量化。ZeroQuant是一个端到端量化和推理管道，有三个主要组件：（1）一个用于权重和激活的细粒度硬件友好量化方案；（2）一个新的负担得起的逐层知识蒸馏算法（LKD），即使没有访问原始训练数据；（3）高度优化的量化系统后端支持，以消除量化/反量化开销。因此，我们能够证明：(1) ZeroQuant可以以免费的方式将BERT和GPT3风格的模型的权重和激活精度降低到INT8，精度影响最小，这导致与FP16推理相比，这些模型的加速高达5.19x/4.16x;(2)ZeroQuant加上LKD将全连接模块中的权重量化为INT4，以及注意力模块中的INT8权重和INT8激活，与FP16型号相比，内存占用减少了3倍；(3) ZeroQuant可以直接应用于两个最大的开源语言模型，包括GPT-J6B和GPT-NeoX20，我们的INT8模型实现了与FP16模型相似的精度，但效率提高了5.2倍。

DeepSpeed是微软开源的一个大规模深度学习优化库，它最大的目标是让分布式训练变得更加简单易用。DeepSpeed包含了很多微软自研的先进的分布式训练技术，最近6月份他们发布了一篇最新的论文，提出了ZeroQuant这个模型压缩的方法和技术，并且已经在最新的DeepSpeed版本中使用了。

关于DeepSpeed详情，可以参考：https://www.datalearner.com/ai-tools/deep-speed

在最新的6月22日的DeepSpeed版本中，通过使用XTC技术，模型的大小降低了50倍，而使用ZeroQuant则将模型的成本降低了5000倍。而这里说的ZeroQuant就是本篇论文的内容。

大规模自然语言模型已被广泛用于不同的应用，例如使用BERT的自然语言理解和使用GPT风格模型的生成任务。尽管这些模型已经实现了尖端的精度结果，但随着模型大小的急剧增加，内存占用空间和部署它们的计算成本的要求成为一个主要瓶颈，即使在具有强大GPU设备的云服务器上也是如此。缓解这一挑战的一个有希望的方法是量化（quantization），它可以降低权重和激活的位精度，以降低内存占用率和更快的计算（例如，T4/A100上的INT8 Tensor内核）。然而，量化通常需要再训练（也称为量化感知训练quantization aware training，简称QAT），以恢复权重和激活的表示损失中的精度下降。要启用QAT，通常需要完整的训练过程，包括训练数据和计算资源，以微调模型。现在通常无法访问这些组件，QAT也是一个耗时的过程，特别是对于那些大规模模型来说。

最近，有论文提出了零射量化（zero-shot quantization）和训练后量化(post-training quantization，PTQ)来解决训练数据访问和计算要求的挑战，因为PTQ通常不需要（或最小）再训练。但这些方法中的大多数主要集中在相对较小的规模上的计算机视觉问题上。最近，在BERT上显示了有希望的PTQ结果。然而，也依然有如下问题;

1. 它的主要重点是BERTbase上的高精度量化(INT8/FP16);
2. 它不考虑其他亿级生成模型（如GPT-3风格模型）。
3. 更重要的是，这些工作中的大多数并没有报告真正的延迟改善，这使这些方法在改善推理延迟方面的有用性受到质疑。例如，现有的工作通常不讨论与不同量化方案相关的量化/反量化成本，这实际上对使用低精度的性能效益有很大影响。
4. 此外，对于极端量化（例如INT4），知识蒸馏通常用于提高性能，与QAT相比，这增加了另一个昂贵的计算成本来源。此外，为了获得更好的精度性能，量化模型通常采用隐态知识蒸馏。这将给GPU内存和计算资源需求带来巨大压力，因为教师和学生模型都需要加载到GPU内存中进行训练

在本文中，作者提出了端到端训练后量化和推理管道零量化，以解决这些挑战，目标是INT8和INT4/INT8混合精度量化。具体来说：

1. 在权重和激活上应用了细粒度的硬件友好量化方案，即权重的组量化和激活的令牌量化。这两种量化方案都可以显著降低量化误差，并保留硬件加速特性。
2. 我们提出了一种用于INT4/INT8混合精度量化的新的逐层知识蒸馏方法（LKD），其中神经网络通过蒸馏逐层量化，迭代最小，甚至不访问原始训练数据。因此，在任何给定的时刻，设备内存主要只填充单个额外层的占用空间，使数十亿规模的模型蒸馏在有限的训练预算和GPU设备下可行。
3. 我们开发了高度优化的推理后端，消除了量化/反量化运算符昂贵的计算成本，在现代GPU硬件上实现INT8 Tensor内核的延迟加速。

结果表明：
- ZeroQuant能够将BERT和GPT-3风格的模型量化为INT8权重和激活，以保持准确性，而不会产生任何再培训成本。与FP16推理相比，INT8型号在A100 GPU上的BERTbase/GPT-3350M上实现了高达5.19x/4.16x的加速。
- 零量化加LKD可以为BERT和GPT-3风格的模型执行INT4/INT8混合精度量化。与FP16型号相比，这导致内存占用减少了3倍，精度损失也很小。
- 此外，由于LKD的轻量级，我们可以在33秒（10分钟）内完成BERTbase（BERT大）的量化过程。我们还证明了LKD可以使用其他数据集来实现与原始训练数据相似的性能。
- 我们演示了ZeroQuant在两个最大的开源语言模型上的可扩展性，即GPT-J6B和GPT-NeoX20B，并采用INT8量化。对于GPT-J6B,ZeroQuant可以实现3.67倍的加速，并且(2)将GPT-NeoX20B的推理GPU要求从2降低到1，延迟从65ms降低到25ms（即，系统效率提升5.2倍）

<center>![](https://www.datalearner.com/resources/blog_images/15a8346b-8b7c-43e6-9336-f00dec729bde.jpg)</center>
<center></center>

具体的对比结果：

模型压缩新选择——ZeroQuant提升模型压缩效率5.2倍

论文名：ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers

发布时间：2022年6月

论文地址：https://arxiv.org/abs/2206.01861

代码地址：https://github.com/microsoft/DeepSpeed