Stable Cascade - Stable Cascade

模型详细情况和参数

Stable Cascade

模型全称
Stable Cascade
模型简称
Stable Cascade
模型类型
多模态大模型
发布日期
2024-02-12
预训练文件大小
20GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
5.0
模型代码开源协议
Stability AI Membership
预训练结果开源商用情况
Stability AI Membership - 收费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
官方博客论文
Introducing Stable Cascade
基础模型
无基础模型
发布机构

Stable Cascade 简介

Stable Cascade 是一种基于 Würstchen 架构的新型文本到图像模型,采用了三阶段方法,旨在简化模型的训练和微调,使之能够在消费级硬件上轻松运行。这一模型在非商业许可下发布,仅限于非商业用途。

主要亮点

  • 新模型发布:Stable Cascade 在研究预览中发布,采用三阶段方法,提高了质量、灵活性、微调能力和效率,同时进一步降低了硬件要求。
  • 技术细节:Stable Cascade 包括三个阶段(A、B、C),通过分层压缩图像,实现了使用高度压缩的潜在空间达到显著的输出效果。
  • 训练和微调:提供了针对不同阶段的训练和微调脚本,特别是Stage C,可以单独进行训练或微调,显著降低成本。
  • 参数规模与效率:Stage C 提供1B与3.6B参数两种模型,Stage B 提供700M与1.5B参数两种模型,强调了效率和质量的平衡。

性能比较

  • Stable Cascade 在几乎所有模型比较中,无论是在提示对齐还是美学质量方面,都表现最佳。
  • 尽管其最大模型参数比Stable Diffusion XL多出1.4亿,但仍然展现出更快的推理速度。

附加功能

  • 图像变体生成:通过使用CLIP提取给定图像的嵌入,然后返回给模型生成变体。
  • 图像到图像生成:通过向给定图像添加噪声作为生成的起点。

代码支持

  • 为了进一步降低实验的要求,Stable Cascade 发布了全部的训练、微调、ControlNet和LoRA代码。
  • 发布的ControlNets包括:修复/外扩、Canny边缘检测、2倍超分辨率等功能。

结论

Stable Cascade 通过其三阶段方法和模块化设计,展现了在文本到图像生成领域的新里程碑。这一模型不仅提供了高质量的输出,还通过其创新的架构大幅降低了训练和推理的硬件要求,使得更多的用户能够在消费级硬件上进行实验和创作。尽管目前仅限于非商业用途,但Stable Cascade 的发布为进一步的研究和开发提供了强大的工具和可能性。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Stable Cascade所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

Stable Cascade相关的任务
文本生成图片

文本生成图片

Text to Image

35个资源

图像生成图像

图像生成图像

Image to Image

35个资源