CO

Composer

Composer

发布时间: 2023-02-20522
模型参数
50.0亿
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2023-02-20
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
50.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

最近在大数据上学习的大规模生成模型能够合成令人难以置信的图像,但却存在可控性有限的问题。这项工作提供了一种新的生成范式,允许灵活控制输出图像,如空间布局和调色板,同时保持合成质量和模型的创造性。以合成性为核心思想,我们首先将图像分解成有代表性的因素,然后以所有这些因素为条件训练一个扩散模型,对输入进行重新组合。在推理阶段,丰富的中间表征作为可组合的元素发挥作用,导致一个巨大的设计空间(即与分解因素的数量成指数比例),用于可定制的内容创作。值得注意的是,我们的方法,我们称之为Composer,支持各种层次的条件,如文本描述作为全局信息,深度图和草图作为局部指导,颜色直方图作为低层次细节,等等。除了提高可控性,我们确认Composer可以作为一个通用的框架,并促进广泛的经典生成任务,而无需重新训练。代码和模型将被提供。




Composer,是组合式生成模型的实现。组合式生成模型,是指能够无缝地重新组合视觉组件以产生新图像的生成模型(图1)。具体来说,我们将Composer实现为一个具有UNet骨干的多条件扩散模型(Nichol等人,2021)。在Composer的每次训练迭代中,有两个阶段:在分解阶段,我们使用计算机视觉算法或预训练的模型将一批图像分解成单独的表征;而在组成阶段,我们优化Composer,使其能够从其表征子集中重建这些图像。尽管只用一个重建目标进行训练,但Composer能够从未曾见过的表征组合中解码新的图像,这些表征可能来自不同的来源,并且可能彼此不兼容。


Composer是一个大型的(50亿个参数)可控扩散模型,在数十亿个(文本、图像)对上训练。它可以通过组合以指数方式扩展控制空间,导致产生和操纵图像的大量方法,即使有限的手段得到无限的利用。


项目目前还没有开源更多预训练模型的细节,不过其官方GitHub中表示会进一步开发训练和推理代码以及未来可能会开放一个轻量级的模型。


项目更多案例:

 https://damo-vilab.github.io/composer-page/ 

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码