SV

SVD

视觉大模型

Stable Video Diffusion

发布时间: 2023-11-21

模型参数(Parameters)
10.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

视觉大模型

发布时间

2023-11-21

模型预文件大小

9.56GB

开源和体验地址

代码开源状态
预训练权重开源
开源不可商用 - 不可以商用
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

SVD模型在各大评测榜单的评分

发布机构

模型介绍

更多介绍参考: https://www.datalearner.com/blog/1051700786899649 

SVD模型简介

SVD全称Stable Video Diffusion,是StabilityAI最新的开源文本生成视频大模型。这个模型是基于Stable Diffusion 2.1进行初始化,然后通过在图像模型中插入时空卷积和注意力层来构建这个视频生成模型的架构,最终在1.52亿视频数据集上训练得到。


这个模型可以生成14帧的576x1024分辨率的视频(还有一个SVD-XT版本,可以生成25帧的视频)。


下面的gif就是生成的样例~




SVD模型的训练细节

SVD模型的训练分为3个阶段:

  1. 图像预训练:使用Stable Diffusion 2.1的图像模型进行初始化。这提供了强大的视觉表示能力。
  2. 视频预训练:在预训练的图像模型中插入时空卷积和注意力层,构建视频模型的架构。在大规模视频数据集上预训练视频模型。该数据集是通过提出的系统性数据筛选方法获得,包含1.52亿视频样本。这一阶段是在较低分辨率下进行,获得通用的运动表示。
  3. 高分辨率视频微调:使用少量高质量视频数据(约100万)在更高分辨率下进行模型微调。这是获得高分辨率、高质量视频生成的关键步骤。


注意,Stable Video Diffusion模型的参数没有完整公布,根据它是Stable Diffusion 2.1加入时空卷积和注意力层的模型架构,它的参数应该是大于Stable Diffusions 2.1。而SD 2.1模型的参数为9.83亿,因此,该模型的参数数量应该是超过10亿的。


训练技巧包括:

  • 按分辨率调整noise schedule
  • 采用EDM训练框架
  • 使用vanilla分类无关指导生成连贯结果


SVD模型相关的信息表格总结如下:


SVD信息详细内容
模型名称Stable Video Diffusion (SVD)
架构基于Stable Diffusion 2.1,包括时序层和噪声调整
训练阶段1. 图像预训练(2D文本到图像)
2. 视频预训练(大量视频数据)
3. 高质量视频微调(小型高质量视频数据集)
基本模型训练初始分辨率256×384,迭代150k次;微调分辨率320×576,迭代100k次
高分辨率文本到视频模型微调数据集约1M样本,分辨率576×1024,迭代50k次
高分辨率图像到视频模型两个版本(14帧和25帧),具体的微调细节未提供
Camera Motion  LoRAs训练用于控制图像到视频生成中的相机运动,涵盖水平移动、变焦和静态
帧插值通过预测两个条件帧内的三个帧来提高帧率,仅需迭代约10k次
多视角生成在多视角数据集上微调,如Objaverse和MVImgNet,用于生成单个图像的多视角序列
应用和性能用于高质量的文本到视频和图像到视频合成,多视角生成表现优于现有技术,且计算成本更低


注意,SVD模型的代码通过MIT协议开源,完全免费商用授权。但是预训练结果官方说只能用于研究目的(research purpose only),不可以商用!。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat