Google最新超大模型Pathways:一个会讲笑话的6400亿参数的语言模型
去年,谷歌研究院宣布了一个新的Pathways的愿景,一个可以跨领域和任务通用的单一模型,同时具有很高的效率。实现这一愿景的一个重要里程碑是开发新的Pathways系统来协调加速器的分布式计算。
今天,Google介绍了一个新的语言模型,一个Pathways语言模型:PaLM,这是一个用Pathways系统训练的5400亿个参数、仅有dense decoder的Transformer模型,在数百个语言理解和生成任务上对PaLM进行了评估,发现它在大多数任务中实现了最先进的性能,在许多情况下都有显著的优势。

PaLM模型对比现阶段最优秀的模型
与当前基准的最优秀模型相比,PaLM都提升不错,在自然语言推理、常识推理等方面尤其明显。

几个实例:
标注因果关系,概念理解,从表情符号猜测电影,以及寻找同义词和反事实的实例

例如,该模型可以区分因果关系,理解适当语境下的概念组合,甚至可以从一个表情符号中猜出电影。
逻辑运算实例
通过将模型规模与思维链提示相结合,PaLM在需要多步骤算术或常识性推理的推理任务上显示了突破性的能力。下图展示了在一个小学数学问题的例子中,标准提示与思维链提示的对比。思维链提示法将一个多步骤推理问题的提示分解为中间步骤(以黄色标示),类似于一个人如何处理它。

我们观察到PaLM 540B与思维链提示相结合,在三个算术数据集和两个常识性推理数据集上有很强的性能。例如,通过8次提示,PaLM解决了GSM8K中58%的问题,这是一个由数千道具有挑战性的小学数学题组成的基准,超过了之前用7500个问题的训练集对GPT-3 175B模型进行微调并与外部计算器和验证器相结合而取得的55%的最高分。
#### 笑话解释
值得注意的是,PaLM甚至可以为那些需要多步骤逻辑推理、世界知识和深度语言理解的复杂组合的场景生成明确的解释。例如,它可以为网络上找不到的新奇笑话提供高质量的解释。

GoogleAI博客:https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html
论文地址:https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf
论文国内地址:https://www.datalearner.com/resources/papers/PaLM-paper.pdf
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
