T5

T5 预训练模型详情

模型全称

Text-to-Text Transfer Transformer

发布组织

发布日期

2019-10-23

预训练文件大小

21GB

模型参数数量(亿)

110

发布论文

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Text-to-Text Transfer Transformer 简介

T5全称是Text-to-Text Transfer Transformer,是谷歌研究人员在2019年提出的一个研究框架和预训练模型。在2019年,谷歌研究人员已经意识到基于未标注的大量文本数据训练大模型作为下游任务的基础是一种十分高效的自然语言处理方法。这种方法的主要目的是使模型开发通用能力和知识,然后将其转移到下游任务。但是,快速发展的预训练模型让大家难以比较不同的方法。为此,谷歌在这篇论文中提出将NLP领域的预训练任务当作一个text-to-text任务。然后基于这个框架来研究NLP预训练模型。

区别于之前的模型,由于谷歌将预训练任务当作一个text-to-text任务,因此不需要标注数据,也就是不需要BERT那种模型,于是,谷歌提出了T5模型,将NLP领域的问答系统、语言模型等任务都当作了Text-to-Text任务。如下图所示:



值得一提的是,谷歌将T5模型的源代码和预训练模型都公开了。起初是基于TensorFlow的T5模型,然后他们基于JAX重写了该模型,速度和性能都有了更好的提升。


原始T5开源的模型有多个版本:

T5-Small:600万参数,预训练结果地址:gs://t5-data/pretrained_models/small

T5-Base:2.2亿参数,预训练结果地址:gs://t5-data/pretrained_models/base

T5-Large:7.7亿参数,预训练结果地址:gs://t5-data/pretrained_models/large

T5-3B:30亿参数,预训练结果地址:gs://t5-data/pretrained_models/3B

T5-11B:110亿参数,预训练结果地址:gs://t5-data/pretrained_models/11B


官方博客: https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html 

原版模型: https://github.com/google-research/text-to-text-transfer-transformer 

原版模型预训练文件(checkpoint): https://console.cloud.google.com/storage/browser/t5-data/pretrained_models?pageState=(%22StorageObjectListTable%22:(%22f%22:%22%255B%255D%22))&prefix=&forceOnObjectsSortingFiltering=false 

基于JAX新版模型: https://github.com/google-research/t5x 

新版预训练结果: https://github.com/google-research/text-to-text-transfer-transformer/blob/main/released_checkpoints.md#t511 

T5所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

T5相关的任务
文本生成

文本生成

Text Generation

35个资源