Flan-UL2（Flan-UL2 20B）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

Flan-UL2 - Flan-UL2 20B

模型详细情况和参数

Flan-UL2

模型全称: Flan-UL2 20B
模型简称: Flan-UL2
模型类型: 基础大模型
发布日期: 2023-03-03
预训练文件大小: 未知
是否支持中文（中文优化）: 否
最高支持的上下文长度: 2K
模型参数数量（亿）: 200.0
模型代码开源协议
预训练结果开源商用情况: -
模型GitHub链接: 暂无
模型HuggingFace链接: 暂无
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: UL2: Unifying Language Learning Paradigms
基础模型: 无基础模型
发布机构: Google Research

Flan-UL2 20B 简介

Flan-UL2 20B是谷歌最新开源的200亿参数的预训练模型。这是在开源的UL2 20B上继续训练得到的。主要是用Flan进行了指令tuned。

UL2是谷歌2022年5月份发布的一个大语言模型框架，本次发布的Flan-UL2是继上次开源的UL2的200亿参数结果继续训练的，属于UL2系列的一员。

在 "Scaling Instruction-Finetuned language models (Chung et al.) (有时也被称为Flan2论文），其关键思想是在一组数据集上训练一个大型语言模型。这些数据集被表述为指令，能够在不同的任务中进行泛化。Flan主要在学术任务上进行训练。在Flan2中，我们发布了一系列的T5模型，参数范围从200M到11B，这些模型都经过了Flan的指令调整。

Flan数据集也已在 "The Flan Collection "中公开发布。设计有效指令调优的数据和方法"（Longpre等人）。见谷歌人工智能博客帖子。"The Flan Collection: 推进教学调整的开源方法"。

Flan 20B与UL2 20B的checkpoints

UL2 20B早在2022年第二季度就已经开源了（见《博文：UL2 20B：一个开源的统一语言学习者》）。UL2 20B（准确地说，是~19.5B的参数）完全是在C4语料库上训练的（类似于T5模型）。UL2模型是在新的UL2目标上训练的，该目标在denoisers的混合物上训练（多样化的跨度腐败和前缀语言建模任务）。

我们对带有Flan的UL2 20B模型做了两个主要更新。

最初的UL2模型只在接受域为512的情况下进行训练，这使得它对于N大的N-shot提示不理想。这个Flan-UL2检查点使用的是2048的接受域，这使得它更适用于几张照片的语境学习。

最初的UL2模型也有模式切换标记，这对于获得良好的性能来说是必须的。然而，它们有点麻烦，因为这需要在推理或微调时经常进行一些改变。在这次更新/改变中，我们继续对UL2 20B进行额外的10万步训练（小批量），以便在应用Flan指令调整之前忘记 "模式标记"。这个Flan-UL2检查点不再需要模式令牌了。

模型效果

我们将Flan-UL2 20B与Flan系列的其他模型进行比较。我们报告了相对于Flan-T5-XXL的改进。一般来说，Flan-UL2在所有四个设置上都优于Flan-T5 XXL，整体性能提升了+3.2%的相对改进。大部分收益似乎来自于CoT设置，而直接提示（MMLU和BBH）的性能似乎最多只能算一般。

注意：Flan-UL2 20B的模型是基于Apache 2.0开源协议的，因此没有任何限制，可以放心使用。

Flan-UL2的checkpoints下载地址：gs://scenic-bucket/ul2/flan-ul220b/checkpoint_2283000

官方介绍地址： https://www.yitay.net/blog/flan-ul2-20b

欢迎大家关注DataLearner官方微信，接受最新的AI模型和技术推送

Flan-UL2所属的领域

自然语言处理

Natural Language Process

35个资源

Flan-UL2相关的任务

问答系统

Question Answering

35个资源