Google最新超大模型Pathways：一个会讲笑话的6400亿参数的语言模型

原文摘要：大型语言模型已被证明在各种自然语言任务中使用几率学习取得了显著的性能，这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。为了进一步了解规模对少量学习的影响，我们训练了一个5400亿参数、密集激活的Transformer语言模型，我们称之为Pathways语言模型（PaLM）。我们使用Pathways在6144个TPU v4芯片上训练了PaLM，这是一个新的ML系统，能够在多个TPU Pods上进行高效的训练。我们通过在数百个语言理解和生成基准上实现最先进的几次学习结果来证明扩展的持续好处。在其中一些任务上，PaLM 540B实现了突破性的性能，在一套多步骤推理任务上超过了经过微调的先进技术，并在最近发布的BIG-bench基准上超过了人类的平均性能。大量的BIG-bench任务显示了模型规模的不连续改进，这意味着当我们扩展到最大的模型时，性能陡然提高。PaLM在多语言任务和源代码生成方面也有很强的能力，我们在一系列的基准测试中证明了这一点。此外，我们还对偏见和毒性进行了全面的分析，并研究了与模型规模有关的训练数据记忆程度。最后，我们讨论了与大型语言模型有关的伦理考虑，并讨论了潜在的缓解策略。

去年，谷歌研究院宣布了一个新的Pathways的愿景，一个可以跨领域和任务通用的单一模型，同时具有很高的效率。实现这一愿景的一个重要里程碑是开发新的Pathways系统来协调加速器的分布式计算。

今天，Google介绍了一个新的语言模型，一个Pathways语言模型：PaLM，这是一个用Pathways系统训练的5400亿个参数、仅有dense decoder的Transformer模型，在数百个语言理解和生成任务上对PaLM进行了评估，发现它在大多数任务中实现了最先进的性能，在许多情况下都有显著的优势。

<center>![](http://www.datalearner.com/resources/blog_images/bab656c2-e0fa-490f-a65d-eaced2e68701.gif)</center>
<center></center>

[TOC]

#### PaLM模型对比现阶段最优秀的模型
与当前基准的最优秀模型相比，PaLM都提升不错，在自然语言推理、常识推理等方面尤其明显。

<center>![](http://www.datalearner.com/resources/blog_images/3d354a2b-da8f-4795-8f83-90ec04df0cbb.png)</center>
<center></center>

几个实例：

#### 标注因果关系，概念理解，从表情符号猜测电影，以及寻找同义词和反事实的实例

<center>![](http://www.datalearner.com/resources/blog_images/aaf220f2-5042-4aee-b9ad-8cdd7a91d400.gif)</center>
<center></center>

例如，该模型可以区分因果关系，理解适当语境下的概念组合，甚至可以从一个表情符号中猜出电影。

#### 逻辑运算实例
通过将模型规模与思维链提示相结合，PaLM在需要多步骤算术或常识性推理的推理任务上显示了突破性的能力。下图展示了在一个小学数学问题的例子中，标准提示与思维链提示的对比。思维链提示法将一个多步骤推理问题的提示分解为中间步骤（以黄色标示），类似于一个人如何处理它。

<center>![](http://www.datalearner.com/resources/blog_images/a224640d-fae6-4c50-ae2f-bd603c20c50e.png)</center>
<center></center>

我们观察到PaLM 540B与思维链提示相结合，在三个算术数据集和两个常识性推理数据集上有很强的性能。例如，通过8次提示，PaLM解决了GSM8K中58%的问题，这是一个由数千道具有挑战性的小学数学题组成的基准，超过了之前用7500个问题的训练集对GPT-3 175B模型进行微调并与外部计算器和验证器相结合而取得的55%的最高分。

#### 笑话解释

值得注意的是，PaLM甚至可以为那些需要多步骤逻辑推理、世界知识和深度语言理解的复杂组合的场景生成明确的解释。例如，它可以为网络上找不到的新奇笑话提供高质量的解释。

<center>![](http://www.datalearner.com/resources/blog_images/2abf4842-0656-412a-88e1-4bcca9f1d9fa.png)</center>
<center></center>

Google最新超大模型Pathways：一个会讲笑话的6400亿参数的语言模型

论文名：PaLM: Scaling Language Modeling with Pathways

发布时间：2022年4月

论文地址：https://www.datalearner.com/resources/papers/PaLM-paper.pdf

代码地址：