Google最新超大模型Pathways:一个会讲笑话的6400亿参数的语言模型

标签:大模型,语言模型,预训练模型 时间:2022-07-01 21:57:33.172 发布者:小木

论文名:PaLM: Scaling Language Modeling with Pathways
发布时间:2022年4月
论文地址:https://www.datalearner.com/resources/papers/PaLM-paper.pdf
代码地址:

原文摘要:大型语言模型已被证明在各种自然语言任务中使用几率学习取得了显著的性能,这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。为了进一步了解规模对少量学习的影响,我们训练了一个5400亿参数、密集激活的Transformer语言模型,我们称之为Pathways语言模型(PaLM)。我们使用Pathways在6144个TPU v4芯片上训练了PaLM,这是一个新的ML系统,能够在多个TPU Pods上进行高效的训练。我们通过在数百个语言理解和生成基准上实现最先进的几次学习结果来证明扩展的持续好处。在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了经过微调的先进技术,并在最近发布的BIG-bench基准上超过了人类的平均性能。大量的BIG-bench任务显示了模型规模的不连续改进,这意味着当我们扩展到最大的模型时,性能陡然提高。PaLM在多语言任务和源代码生成方面也有很强的能力,我们在一系列的基准测试中证明了这一点。此外,我们还对偏见和毒性进行了全面的分析,并研究了与模型规模有关的训练数据记忆程度。最后,我们讨论了与大型语言模型有关的伦理考虑,并讨论了潜在的缓解策略。