CM

CM3leon

多模态大模型

CM3leon

发布时间: 2023-07-14

模型参数(Parameters)
70.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

多模态大模型

发布时间

2023-07-14

模型预文件大小

0

开源和体验地址

代码开源状态
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

CM3leon模型在各大评测榜单的评分

发布机构

Facebook AI研究实验室
Facebook AI研究实验室
查看发布机构详情

模型介绍

随着深度学习在视觉和语言领域的发展,文本到图像生成也成为了一个激动人心的研究方向。MetaAI提出的名为CM3Leon的新模型,它展示了在预训练和多任务微调的配合下,作为一个检索增强的自回归多模态语言模型,可以在图像生成任务上取得新的进步。


背景介绍

图像生成领域最近由diffusion模型占据主导,例如stable diffusion。虽然self-attention的transformer结构在NLP任务上表现优异,但在计算效率上落后,在图像生成领域应用相对较少。CM3Leon充分利用了transformer的自回归建模优势,在提升图像生成质量的同时,也展示了计算效率上的改进。


CM3Leon模型概览

CM3Leon使用了检索增强的预训练+多任务监督微调的方式。其中,预训练使用了大规模的Shutterstock数据集(3.4亿图像文本对),使模型可从检索记忆存储中获取相关知识。监督微调则使用了多种图像-文本组合任务,增强模型对指令的理解。这种训练方式借鉴了仅文本的GPT系列模型。CM3Leon还使用了一种自包含的对比解码生成方式。所有这些使其成为有竞争力的文本到图像生成模型。

  • 模型架构:基于检索增强的自回归Transformerdecoder架构
  • 模型规模:预训练了350M/760M/7B参数三个模型
  • 数据规模:预训练数据34亿图片文本对;微调数据300亿tokens
  • 训练方式:两阶段训练
  • 预训练:检索增强自回归预训练
  • 微调:多任务监督微调
  • 解码方式:自包含的对比解码生成


模型效果

CM3Leon在零样本MS-COCO图像生成任务上取得4.88的新state-of-the-art FID,使用的训练计算量只有其他模型的1/5(350M参数CM3Leon相当于20B参数PARTI模型)。微调后,它还展示了语言引导图像编辑、图像控制文本生成等强大的控制生成能力。


模型创新之处

CM3Leon的创新之处主要体现在:

1.    采用了预训练+微调的范式,借鉴纯文本模型recipe

2.    使用对比解码算法生成高质量图像

3.    训练数据规模大幅提升(34亿Shutterstock数据)

4.    提出检索增强训练带来显著效率提升


影响及未来方向

CM3Leon证明了刻板印象“计算效率低下”的自回归模型也可以具有很强的实用性。未来这一领域可能会关注如何继续提升自回归模型的质量、效率和创新应用等


总之,CM3Leon开创了新的文本到图像生成范式,也为未来的研究提供了很好的参考,值得密切关注。

 

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat