ST

Stable Diffusion-2.0

Stable Diffusion 2.0

发布时间: 2022-11-24510
模型参数
9.83
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2022-11-24
模型文件大小
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

SD2全称是Stable Diffusion 2.0,是继Stabale Diffusion 1.5之后重大的升级版本。

Stable Diffusion是一个Text-to-Image大模型,由ComputeVis与RunwayML合作开发的图片生成大模型。StabilityAI贡献了计算资源并开源到业界。与OpenAI DALL·E2和谷歌Imagen的收费使用不同,SD的开源在业界引起了很大的关注。

2.0版本的Stable Diffusion有多项升级。


新的Text-to-Image的Diffusion模型

Stabale Diffusion 2.0版本包括使用全新的文本编码器(OpenCLIP)训练的健Text-to-Image模型,该编码器由LAION在StabilityAI的支持下开发,与早期的V1版本相比,这大大提高了生成图像的质量。此版本中的文本到图像模型可以生成默认分辨率为512x512像素和768x768像素的图像。


这些模型在StabilityAI的DeepFloyd团队创建的LAION-5B数据集的美学子集上进行训练,然后使用LAION的NSFW过滤器进一步过滤以删除成人内容。


超分辨率上标度器扩散模型

Stabale Diffusion2.0还包括一个Upscaler扩散模型,可将图像的分辨率提高4倍。模型可以将低分辨率生成的图像(128x128)放大为高分辨率图像(512x512)。结合我们的文本到图像模型,Stabale Diffusion2.0现在可以生成分辨率为2048x2048甚至更高的图像。


Depth-to-Image

Stabale Diffusion2.0提供了一个新的功能,Depth-to-Image,扩展了V1以前的图像到图像功能,为创造性应用提供了全新的可能性。Depth-to-Image推断输入图像的深度(使用现有模型),然后使用文本和深度信息生成新图像。

这个功能十分有价值,可以用来生成3D模型或者是VR内容。主要原理就是先使用 MiDaS 来推断图片的深度信息(depth)。然后根据文本和原始图像来生成新的图片。值得期待!


图像修正(更新)- Updated Inpainting Diffusion Model

Stabale Diffusion2.0还包括一个新的文本引导修复模型,在新的Stabale Diffusion2.0基础Text-to-Image上进行了微调,这使得它超级容易切换替换修复图片中的部分内容。


目前,Stabale Diffusion2.0的预训练结果文件还未公布,将在未来几日公布。

基础模型