M6

M6

Multi-Modality to Multi-Modality Multitask Mega-transformer

发布时间: 2021-03-01469
模型参数
1000.0亿
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2021-03-01
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
1000.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

腾讯AI实验室
查看发布机构详情

模型解读

M6全称Multi-Modality to Multi-Modality Multitask Mega-transformer,是阿里巴巴达摩院在2021年6月份发布的多模态大模型(3月1日提交论文到arXiv)。是中文领域的多模态大模型。


就能力而言,M6类似于GPT-3和其他类似模型,如Wu Dao 2.0或MT-NGL 530B(我们对后两者了解甚少)。


InfoQ总结了M6的主要技能:“[它]具有超越传统AI的认知和创造力,擅长绘画、写作、问答,并在电子商务、制造业、文学艺术等许多领域具有广泛的应用前景。”


然而,阿里巴巴的研究人员强调的关键方面是显著的效率和能源成本改进。与1亿语言模型相比,他们将该模型的消耗降低了80%,并将其效率提高了11倍。


关于M6模型的具体参数和训练细节,目前阿里巴巴并没有公开详细的信息。但是据报道,M6模型采用了类似于GPT-3的预训练模式,通过多语言和多模态数据的预训练来提高模型的泛化能力。此外,阿里巴巴的研究人员还开发了一种名为“AdapTXT”的技术,能够自动为模型选择最优的训练数据,以进一步提高模型的准确性和效率。


M6的训练的数据集M6-Corpus相关信息

M6是基于阿里收集的M6-Corpus训练的。其中包含1.9T的图像和292G的文本。这是目前(2021年3月)中文领域中用于多模态和自然语言预训练的最大数据集。该数据集从网页中收集,包括不同类型的数据,并覆盖大量领域,包括百科全书、问答、论坛讨论、产品描述等。此外,达摩院还设计了精密的数据清洗过程,以确保数据的高质量。


下图是M6-Corpus数据集相关信息


其中,文本和图像关系数据集样例如下:


与当前业界公开的数据集相比,M6-Corpus也具有规模优势(不过不开源,而且数量虽然大,但是质量不清楚)



M6模型架构和训练信息

M6模型基于transformer,并通过多个任务进行预训练。预训练赋予了模型单模态和多模态理解和生成的能力。基于M6的架构,达摩院构建了M6-10B和M6-100B,它们分别扩展到100亿和1000亿参数。


M6首次将预训练与文本到图像生成相结合,使用训练好的向量量化生成对抗网络来表示具有离散图像编码的图像,然后使用预训练的M6来学习文本和编码之间的关系。这样的学习可以桥接两种模态,并实现可控的文本到图像生成。


下图是M6模型预训练任务概览:



M6目前包含3个版本,基础班、10B版本和100B版本。模型对比结果如下:





















DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码