UL

UL2

Unifying Language Learning Paradigms

发布时间: 2022-05-10529
模型参数
200.0
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2022-05-10
模型文件大小
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

UL2全称是Unifying Language Learning Paradigms,是谷歌发布的一个大语言模型。UL2是谷歌尝试的一种与GPT-3、PaLM不同的大语言模型路径。它是一种模型训练框架,基于该框架谷歌训练了多个不同的模型,并开源了部分训练结果。



现有的预训练模型一般都是针对某一类问题的。到目前为止,对于什么是正确的架构和预训练设置,似乎还没有达成共识。换句话说,如Decoder-only、Encoder-Decoder等。不同的结构对于不同的下游任务影响不同,意味着根据不同的目标,我们通常需要不同结构的模型去训练。而UL2是谷歌提出的一个统一的预训练模型的框架,这些模型在不同的数据集和设置中都是有效的。也就是说,即便是根据不同的下游任务和目标,UL2也可以利用自己优秀的泛化能力,以一种通用的结构来训练,获取更好的效果。



谷歌首先将架构原型与预训练目标分开,这两个概念通常被混为一谈。接下来,为NLP中的self-supervision提出了一个普遍而统一的观点,并展示了不同的预训练目标是如何相互转化的,以及不同目标之间的插值是如何有效的。


谷歌也在这个模型框架中提出了Mixture-of-Denoisers(MoD),一个将不同的预训练范式结合起来的预训练目标。并进一步介绍了模式切换的概念,其中下游的微调与特定的预训练方案相关。


广泛的实验表明UL2在多种不同的设置中超越了T5或类似GPT的模型,从而推动了Pareto-frontier的发展。最后,通过将UL2模型扩展到200亿的参数,它在50个公认的有监督的NLP任务上取得了SOTA性能,这些任务包括语言生成(有自动和人工评估)、语言理解、文本分类、问题回答、常识推理、长文本推理、结构化知识基础和信息检索。同时,UL2在语境学习方面也取得了很好的效果,在zero-shot的SuperGLUE上超过了1750亿参数的GPT-3,在one-shot的摘要任务上是T5-XXL性能的三倍。


下图是UL2在五个算数推理基准上的表现结果:



UL2模型最大的特点是开源,目前已开源的版本由3个,都是200亿参数,但是迭代的步骤分别是1870000、2050000、2650000的三个版本:

模型名称参数数量迭代步骤Config路径Checkpoint路径
UL2200亿1870000https://storage.googleapis.com/scenic-bucket/ul2/ul220b/config.gings://scenic-bucket/ul2/ul220b/checkpoint_1870000
UL2200亿2050000https://storage.googleapis.com/scenic-bucket/ul2/ul220b/config.gings://scenic-bucket/ul2/ul220b/checkpoint_2050000
UL2200亿2650000https://storage.googleapis.com/scenic-bucket/ul2/ul220b/config.gings://scenic-bucket/ul2/ul220b/checkpoint_2650000
Flan-UL2200亿2283000https://storage.googleapis.com/scenic-bucket/ul2/ul220b/config.gings://scenic-bucket/ul2/flan-ul220b/checkpoint_2283000


-----2023/2/28更新----------

谷歌发布了基于UL2进行指令微调的Flan-UL2 20B版本参数的模型预训练结果,详情: https://www.datalearner.com/ai-resources/pretrained-models/flan-20b