FL

Flan-UL2

Flan-UL2 20B

发布时间: 2023-03-03456
模型参数
200.0
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-03-03
模型文件大小
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

Flan-UL2 20B是谷歌最新开源的200亿参数的预训练模型。这是在开源的UL2 20B上继续训练得到的。主要是用Flan进行了指令tuned。


UL2是谷歌2022年5月份发布的一个大语言模型框架,本次发布的Flan-UL2是继上次开源的UL2的200亿参数结果继续训练的,属于UL2系列的一员。


在 "Scaling Instruction-Finetuned language models (Chung et al.) (有时也被称为Flan2论文),其关键思想是在一组数据集上训练一个大型语言模型。这些数据集被表述为指令,能够在不同的任务中进行泛化。Flan主要在学术任务上进行训练。在Flan2中,我们发布了一系列的T5模型,参数范围从200M到11B,这些模型都经过了Flan的指令调整。


Flan数据集也已在 "The Flan Collection "中公开发布。设计有效指令调优的数据和方法"(Longpre等人)。见谷歌人工智能博客帖子。"The Flan Collection: 推进教学调整的开源方法"。


Flan 20B与UL2 20B的checkpoints


UL2 20B早在2022年第二季度就已经开源了(见《博文:UL2 20B:一个开源的统一语言学习者》)。UL2 20B(准确地说,是~19.5B的参数)完全是在C4语料库上训练的(类似于T5模型)。UL2模型是在新的UL2目标上训练的,该目标在denoisers的混合物上训练(多样化的跨度腐败和前缀语言建模任务)。


我们对带有Flan的UL2 20B模型做了两个主要更新。


最初的UL2模型只在接受域为512的情况下进行训练,这使得它对于N大的N-shot提示不理想。这个Flan-UL2检查点使用的是2048的接受域,这使得它更适用于几张照片的语境学习。


最初的UL2模型也有模式切换标记,这对于获得良好的性能来说是必须的。然而,它们有点麻烦,因为这需要在推理或微调时经常进行一些改变。在这次更新/改变中,我们继续对UL2 20B进行额外的10万步训练(小批量),以便在应用Flan指令调整之前忘记 "模式标记"。这个Flan-UL2检查点不再需要模式令牌了。


模型效果


我们将Flan-UL2 20B与Flan系列的其他模型进行比较。我们报告了相对于Flan-T5-XXL的改进。一般来说,Flan-UL2在所有四个设置上都优于Flan-T5 XXL,整体性能提升了+3.2%的相对改进。大部分收益似乎来自于CoT设置,而直接提示(MMLU和BBH)的性能似乎最多只能算一般。


注意:Flan-UL2 20B的模型是基于Apache 2.0开源协议的,因此没有任何限制,可以放心使用。


Flan-UL2的checkpoints下载地址:gs://scenic-bucket/ul2/flan-ul220b/checkpoint_2283000


官方介绍地址: https://www.yitay.net/blog/flan-ul2-20b