CM

CM3leon

多模态大模型

CM3leon

发布时间: 2023-07-14

398
模型参数(Parameters)
70.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

多模态大模型

发布时间

2023-07-14

模型预文件大小

0

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
暂无公开的 API 定价信息。

CM3leon模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

Facebook AI研究实验室
Facebook AI研究实验室
查看发布机构详情

CM3leon模型解读

随着深度学习在视觉和语言领域的发展,文本到图像生成也成为了一个激动人心的研究方向。MetaAI提出的名为CM3Leon的新模型,它展示了在预训练和多任务微调的配合下,作为一个检索增强的自回归多模态语言模型,可以在图像生成任务上取得新的进步。


背景介绍

图像生成领域最近由diffusion模型占据主导,例如stable diffusion。虽然self-attention的transformer结构在NLP任务上表现优异,但在计算效率上落后,在图像生成领域应用相对较少。CM3Leon充分利用了transformer的自回归建模优势,在提升图像生成质量的同时,也展示了计算效率上的改进。


CM3Leon模型概览

CM3Leon使用了检索增强的预训练+多任务监督微调的方式。其中,预训练使用了大规模的Shutterstock数据集(3.4亿图像文本对),使模型可从检索记忆存储中获取相关知识。监督微调则使用了多种图像-文本组合任务,增强模型对指令的理解。这种训练方式借鉴了仅文本的GPT系列模型。CM3Leon还使用了一种自包含的对比解码生成方式。所有这些使其成为有竞争力的文本到图像生成模型。

  • 模型架构:基于检索增强的自回归Transformerdecoder架构
  • 模型规模:预训练了350M/760M/7B参数三个模型
  • 数据规模:预训练数据34亿图片文本对;微调数据300亿tokens
  • 训练方式:两阶段训练
  • 预训练:检索增强自回归预训练
  • 微调:多任务监督微调
  • 解码方式:自包含的对比解码生成


模型效果

CM3Leon在零样本MS-COCO图像生成任务上取得4.88的新state-of-the-art FID,使用的训练计算量只有其他模型的1/5(350M参数CM3Leon相当于20B参数PARTI模型)。微调后,它还展示了语言引导图像编辑、图像控制文本生成等强大的控制生成能力。


模型创新之处

CM3Leon的创新之处主要体现在:

1.    采用了预训练+微调的范式,借鉴纯文本模型recipe

2.    使用对比解码算法生成高质量图像

3.    训练数据规模大幅提升(34亿Shutterstock数据)

4.    提出检索增强训练带来显著效率提升


影响及未来方向

CM3Leon证明了刻板印象“计算效率低下”的自回归模型也可以具有很强的实用性。未来这一领域可能会关注如何继续提升自回归模型的质量、效率和创新应用等


总之,CM3Leon开创了新的文本到图像生成范式,也为未来的研究提供了很好的参考,值得密切关注。

 

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat