M6（Multi-Modality to Multi-Modality Multitask Mega-transformer）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

M6 - Multi-Modality to Multi-Modality Multitask Mega-transformer

模型详细情况和参数

M6

模型全称: Multi-Modality to Multi-Modality Multitask Mega-transformer
模型简称: M6
模型类型: 基础大模型
发布日期: 2021-03-01
预训练文件大小: 未知
是否支持中文（中文优化）: 否
最高支持的上下文长度: 2K
模型参数数量（亿）: 1000.0
模型代码开源协议
预训练结果开源商用情况: -
模型GitHub链接: 暂无
模型HuggingFace链接: 暂无
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: M6: A Chinese Multimodal Pretrainer
基础模型: 无基础模型
发布机构: 腾讯AI实验室

Multi-Modality to Multi-Modality Multitask Mega-transformer 简介

M6全称Multi-Modality to Multi-Modality Multitask Mega-transformer，是阿里巴巴达摩院在2021年6月份发布的多模态大模型（3月1日提交论文到arXiv）。是中文领域的多模态大模型。

就能力而言，M6类似于GPT-3和其他类似模型，如Wu Dao 2.0或MT-NGL 530B（我们对后两者了解甚少）。

InfoQ总结了M6的主要技能：“[它]具有超越传统AI的认知和创造力，擅长绘画、写作、问答，并在电子商务、制造业、文学艺术等许多领域具有广泛的应用前景。”

然而，阿里巴巴的研究人员强调的关键方面是显著的效率和能源成本改进。与1亿语言模型相比，他们将该模型的消耗降低了80％，并将其效率提高了11倍。

关于M6模型的具体参数和训练细节，目前阿里巴巴并没有公开详细的信息。但是据报道，M6模型采用了类似于GPT-3的预训练模式，通过多语言和多模态数据的预训练来提高模型的泛化能力。此外，阿里巴巴的研究人员还开发了一种名为“AdapTXT”的技术，能够自动为模型选择最优的训练数据，以进一步提高模型的准确性和效率。

M6的训练的数据集M6-Corpus相关信息

M6是基于阿里收集的M6-Corpus训练的。其中包含1.9T的图像和292G的文本。这是目前（2021年3月）中文领域中用于多模态和自然语言预训练的最大数据集。该数据集从网页中收集，包括不同类型的数据，并覆盖大量领域，包括百科全书、问答、论坛讨论、产品描述等。此外，达摩院还设计了精密的数据清洗过程，以确保数据的高质量。

下图是M6-Corpus数据集相关信息