Flan-UL2 - Flan-UL2 20B

模型详细情况和参数

Flan-UL2

模型全称
Flan-UL2 20B
模型简称
Flan-UL2
模型类型
基础大模型
发布日期
2023-03-03
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
200.0
模型代码开源协议
预训练结果开源商用情况
-
模型GitHub链接
暂无
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

Flan-UL2 20B 简介

Flan-UL2 20B是谷歌最新开源的200亿参数的预训练模型。这是在开源的UL2 20B上继续训练得到的。主要是用Flan进行了指令tuned。


UL2是谷歌2022年5月份发布的一个大语言模型框架,本次发布的Flan-UL2是继上次开源的UL2的200亿参数结果继续训练的,属于UL2系列的一员。


在 "Scaling Instruction-Finetuned language models (Chung et al.) (有时也被称为Flan2论文),其关键思想是在一组数据集上训练一个大型语言模型。这些数据集被表述为指令,能够在不同的任务中进行泛化。Flan主要在学术任务上进行训练。在Flan2中,我们发布了一系列的T5模型,参数范围从200M到11B,这些模型都经过了Flan的指令调整。


Flan数据集也已在 "The Flan Collection "中公开发布。设计有效指令调优的数据和方法"(Longpre等人)。见谷歌人工智能博客帖子。"The Flan Collection: 推进教学调整的开源方法"。


Flan 20B与UL2 20B的checkpoints


UL2 20B早在2022年第二季度就已经开源了(见《博文:UL2 20B:一个开源的统一语言学习者》)。UL2 20B(准确地说,是~19.5B的参数)完全是在C4语料库上训练的(类似于T5模型)。UL2模型是在新的UL2目标上训练的,该目标在denoisers的混合物上训练(多样化的跨度腐败和前缀语言建模任务)。


我们对带有Flan的UL2 20B模型做了两个主要更新。


最初的UL2模型只在接受域为512的情况下进行训练,这使得它对于N大的N-shot提示不理想。这个Flan-UL2检查点使用的是2048的接受域,这使得它更适用于几张照片的语境学习。


最初的UL2模型也有模式切换标记,这对于获得良好的性能来说是必须的。然而,它们有点麻烦,因为这需要在推理或微调时经常进行一些改变。在这次更新/改变中,我们继续对UL2 20B进行额外的10万步训练(小批量),以便在应用Flan指令调整之前忘记 "模式标记"。这个Flan-UL2检查点不再需要模式令牌了。


模型效果


我们将Flan-UL2 20B与Flan系列的其他模型进行比较。我们报告了相对于Flan-T5-XXL的改进。一般来说,Flan-UL2在所有四个设置上都优于Flan-T5 XXL,整体性能提升了+3.2%的相对改进。大部分收益似乎来自于CoT设置,而直接提示(MMLU和BBH)的性能似乎最多只能算一般。


注意:Flan-UL2 20B的模型是基于Apache 2.0开源协议的,因此没有任何限制,可以放心使用。


Flan-UL2的checkpoints下载地址:gs://scenic-bucket/ul2/flan-ul220b/checkpoint_2283000


官方介绍地址: https://www.yitay.net/blog/flan-ul2-20b 



欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Flan-UL2所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

Flan-UL2相关的任务
问答系统

问答系统

Question Answering

35个资源