M6 - Multi-Modality to Multi-Modality Multitask Mega-transformer

模型详细情况和参数

M6

模型全称
Multi-Modality to Multi-Modality Multitask Mega-transformer
模型简称
M6
模型类型
基础大模型
发布日期
2021-03-01
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
1000.0
模型代码开源协议
预训练结果开源商用情况
-
模型GitHub链接
暂无
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

Multi-Modality to Multi-Modality Multitask Mega-transformer 简介

M6全称Multi-Modality to Multi-Modality Multitask Mega-transformer,是阿里巴巴达摩院在2021年6月份发布的多模态大模型(3月1日提交论文到arXiv)。是中文领域的多模态大模型。


就能力而言,M6类似于GPT-3和其他类似模型,如Wu Dao 2.0或MT-NGL 530B(我们对后两者了解甚少)。


InfoQ总结了M6的主要技能:“[它]具有超越传统AI的认知和创造力,擅长绘画、写作、问答,并在电子商务、制造业、文学艺术等许多领域具有广泛的应用前景。”


然而,阿里巴巴的研究人员强调的关键方面是显著的效率和能源成本改进。与1亿语言模型相比,他们将该模型的消耗降低了80%,并将其效率提高了11倍。


关于M6模型的具体参数和训练细节,目前阿里巴巴并没有公开详细的信息。但是据报道,M6模型采用了类似于GPT-3的预训练模式,通过多语言和多模态数据的预训练来提高模型的泛化能力。此外,阿里巴巴的研究人员还开发了一种名为“AdapTXT”的技术,能够自动为模型选择最优的训练数据,以进一步提高模型的准确性和效率。


M6的训练的数据集M6-Corpus相关信息

M6是基于阿里收集的M6-Corpus训练的。其中包含1.9T的图像和292G的文本。这是目前(2021年3月)中文领域中用于多模态和自然语言预训练的最大数据集。该数据集从网页中收集,包括不同类型的数据,并覆盖大量领域,包括百科全书、问答、论坛讨论、产品描述等。此外,达摩院还设计了精密的数据清洗过程,以确保数据的高质量。


下图是M6-Corpus数据集相关信息


其中,文本和图像关系数据集样例如下:


与当前业界公开的数据集相比,M6-Corpus也具有规模优势(不过不开源,而且数量虽然大,但是质量不清楚)



M6模型架构和训练信息

M6模型基于transformer,并通过多个任务进行预训练。预训练赋予了模型单模态和多模态理解和生成的能力。基于M6的架构,达摩院构建了M6-10B和M6-100B,它们分别扩展到100亿和1000亿参数。


M6首次将预训练与文本到图像生成相结合,使用训练好的向量量化生成对抗网络来表示具有离散图像编码的图像,然后使用预训练的M6来学习文本和编码之间的关系。这样的学习可以桥接两种模态,并实现可控的文本到图像生成。


下图是M6模型预训练任务概览:



M6目前包含3个版本,基础班、10B版本和100B版本。模型对比结果如下:





















欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

M6所属的领域
M6相关的任务