T5 - Text-to-Text Transfer Transformer

模型详细情况和参数

T5

模型全称
Text-to-Text Transfer Transformer
模型简称
T5
模型类型
基础大模型
发布日期
2019-10-23
预训练文件大小
21GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
110.0
模型代码开源协议
预训练结果开源商用情况
-
模型GitHub链接
暂无
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

Text-to-Text Transfer Transformer 简介

T5全称是Text-to-Text Transfer Transformer,是谷歌研究人员在2019年提出的一个研究框架和预训练模型。在2019年,谷歌研究人员已经意识到基于未标注的大量文本数据训练大模型作为下游任务的基础是一种十分高效的自然语言处理方法。这种方法的主要目的是使模型开发通用能力和知识,然后将其转移到下游任务。但是,快速发展的预训练模型让大家难以比较不同的方法。为此,谷歌在这篇论文中提出将NLP领域的预训练任务当作一个text-to-text任务。然后基于这个框架来研究NLP预训练模型。

区别于之前的模型,由于谷歌将预训练任务当作一个text-to-text任务,因此不需要标注数据,也就是不需要BERT那种模型,于是,谷歌提出了T5模型,将NLP领域的问答系统、语言模型等任务都当作了Text-to-Text任务。如下图所示:



值得一提的是,谷歌将T5模型的源代码和预训练模型都公开了。起初是基于TensorFlow的T5模型,然后他们基于JAX重写了该模型,速度和性能都有了更好的提升。


原始T5开源的模型有多个版本:

T5-Small:600万参数,预训练结果地址:gs://t5-data/pretrained_models/small

T5-Base:2.2亿参数,预训练结果地址:gs://t5-data/pretrained_models/base

T5-Large:7.7亿参数,预训练结果地址:gs://t5-data/pretrained_models/large

T5-3B:30亿参数,预训练结果地址:gs://t5-data/pretrained_models/3B

T5-11B:110亿参数,预训练结果地址:gs://t5-data/pretrained_models/11B


官方博客: https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html 

原版模型: https://github.com/google-research/text-to-text-transfer-transformer 

原版模型预训练文件(checkpoint): https://console.cloud.google.com/storage/browser/t5-data/pretrained_models?pageState=(%22StorageObjectListTable%22:(%22f%22:%22%255B%255D%22))&prefix=&forceOnObjectsSortingFiltering=false 

基于JAX新版模型: https://github.com/google-research/t5x 

新版预训练结果: https://github.com/google-research/text-to-text-transfer-transformer/blob/main/released_checkpoints.md#t511 

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

T5所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

T5相关的任务
文本生成

文本生成

Text Generation

35个资源