Unifying Language Learning Paradigms——谷歌的一个模型打天下

标签:语言模型,预训练模型 时间:2022-07-01 21:20:32.027 发布者:小木

论文名:Unifying Language Learning Paradigms
发布时间:2022年5月
论文地址:https://arxiv.org/abs/2205.05131
代码地址:https://github.com/google-research/google-research/tree/master/ul2

原文摘要:现有的预训练模型一般都是针对某一类问题的。到目前为止,对于什么是正确的架构和预训练设置,似乎还没有达成共识。本文提出了一个统一的预训练模型框架,该框架在不同的数据集和设置中都是有效的。我们首先将架构原型与预训练目标分开,这两个概念通常被混为一谈。接下来,我们为NLP中的自我监督提出了一个普遍而统一的观点,并展示了不同的预训练目标是如何相互投射的,以及不同目标之间的插值是如何有效的。然后,我们提出了Mixture-of-Denoisers(MoD),一个将不同的预训练范式结合起来的预训练目标。我们进一步介绍了模式切换的概念,其中下游的微调与特定的预训练方案相关。我们进行了广泛的消融实验来比较多种预训练目标,并发现我们的方法在多种不同的设置中超越了T5和/或GPT-like模型,从而推动了Pareto-frontier的发展。最后,通过将我们的模型扩展到20B的参数,我们在50个公认的有监督的NLP任务上取得了SOTA的表现,这些任务包括语言生成(有自动和人工评估)、语言理解、文本分类、问题回答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型在语境学习方面也取得了很好的效果,在零次的SuperGLUE上超过了175B GPT-3,在一次的总结上是T5-XXL性能的三倍。他们发布了开源了20B模型。