更多介绍参考： https://www.datalearner.com/blog/1051700786899649

SVD模型简介

SVD全称Stable Video Diffusion，是StabilityAI最新的开源文本生成视频大模型。这个模型是基于Stable Diffusion 2.1进行初始化，然后通过在图像模型中插入时空卷积和注意力层来构建这个视频生成模型的架构，最终在1.52亿视频数据集上训练得到。

这个模型可以生成14帧的576x1024分辨率的视频（还有一个SVD-XT版本，可以生成25帧的视频）。

下面的gif就是生成的样例~

SVD模型的训练细节

SVD模型的训练分为3个阶段:

图像预训练：使用Stable Diffusion 2.1的图像模型进行初始化。这提供了强大的视觉表示能力。
视频预训练：在预训练的图像模型中插入时空卷积和注意力层,构建视频模型的架构。在大规模视频数据集上预训练视频模型。该数据集是通过提出的系统性数据筛选方法获得,包含1.52亿视频样本。这一阶段是在较低分辨率下进行,获得通用的运动表示。
高分辨率视频微调：使用少量高质量视频数据(约100万)在更高分辨率下进行模型微调。这是获得高分辨率、高质量视频生成的关键步骤。

注意，Stable Video Diffusion模型的参数没有完整公布，根据它是Stable Diffusion 2.1加入时空卷积和注意力层的模型架构，它的参数应该是大于Stable Diffusions 2.1。而SD 2.1模型的参数为9.83亿，因此，该模型的参数数量应该是超过10亿的。

训练技巧包括:

按分辨率调整noise schedule
采用EDM训练框架
使用vanilla分类无关指导生成连贯结果

SVD模型相关的信息表格总结如下：

SVD信息	详细内容
模型名称	Stable Video Diffusion (SVD)
架构	基于Stable Diffusion 2.1，包括时序层和噪声调整
训练阶段	1. 图像预训练（2D文本到图像） 2. 视频预训练（大量视频数据） 3. 高质量视频微调（小型高质量视频数据集）
基本模型训练	初始分辨率256×384，迭代150k次；微调分辨率320×576，迭代100k次
高分辨率文本到视频模型	微调数据集约1M样本，分辨率576×1024，迭代50k次
高分辨率图像到视频模型	两个版本（14帧和25帧），具体的微调细节未提供
Camera Motion LoRAs	训练用于控制图像到视频生成中的相机运动，涵盖水平移动、变焦和静态
帧插值	通过预测两个条件帧内的三个帧来提高帧率，仅需迭代约10k次
多视角生成	在多视角数据集上微调，如Objaverse和MVImgNet，用于生成单个图像的多视角序列
应用和性能	用于高质量的文本到视频和图像到视频合成，多视角生成表现优于现有技术，且计算成本更低

注意，SVD模型的代码通过MIT协议开源，完全免费商用授权。但是预训练结果官方说只能用于研究目的（research purpose only），不可以商用！。

SVD

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

SVD模型在各大评测榜单的评分

发布机构

模型介绍

更多介绍参考： https://www.datalearner.com/blog/1051700786899649

SVD模型简介

SVD模型的训练细节

关注DataLearnerAI公众号