DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表SVD
SV

SVD

视觉大模型

Stable Video Diffusion

发布时间: 2023-11-21更新于: 2023-11-24 08:49:57.2421,011
在线体验GitHubHugging FaceCompare
模型参数
10.0亿
上下文长度
2K
中文支持
不支持
推理能力

Stable Video Diffusion 是由 Stability AI 发布的 AI 模型,发布时间为 2023-11-21,定位为 视觉大模型,参数规模约为 10.0B,上下文长度为 2K,模型文件大小约 9.56GB,采用 开源不可商用 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

SVD

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
视觉大模型
发布时间
2023-11-21
模型文件大小
9.56GB
MoE架构
否
总参数 / 激活参数
10.0 亿 / 不涉及
知识截止
暂无数据
SVD

开源和体验地址

代码开源状态
MIT License
预训练权重开源
开源不可商用- 不可以商用
GitHub 源码
https://github.com/Stability-AI/generative-models
Hugging Face
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid
在线体验
暂无在线体验地址
SVD

官方介绍与博客

官方论文
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
DataLearnerAI博客
暂无介绍博客
SVD

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
SVD

评测结果

当前尚无可展示的评测数据。
SVD

发布机构

Stability AI
Stability AI
查看发布机构详情
Stable Video Diffusion

模型解读

更多介绍参考: https://www.datalearner.com/blog/1051700786899649 

SVD模型简介

SVD全称Stable Video Diffusion,是StabilityAI最新的开源文本生成视频大模型。这个模型是基于Stable Diffusion 2.1进行初始化,然后通过在图像模型中插入时空卷积和注意力层来构建这个视频生成模型的架构,最终在1.52亿视频数据集上训练得到。


这个模型可以生成14帧的576x1024分辨率的视频(还有一个SVD-XT版本,可以生成25帧的视频)。


下面的gif就是生成的样例~




SVD模型的训练细节

SVD模型的训练分为3个阶段:

  1. 图像预训练:使用Stable Diffusion 2.1的图像模型进行初始化。这提供了强大的视觉表示能力。
  2. 视频预训练:在预训练的图像模型中插入时空卷积和注意力层,构建视频模型的架构。在大规模视频数据集上预训练视频模型。该数据集是通过提出的系统性数据筛选方法获得,包含1.52亿视频样本。这一阶段是在较低分辨率下进行,获得通用的运动表示。
  3. 高分辨率视频微调:使用少量高质量视频数据(约100万)在更高分辨率下进行模型微调。这是获得高分辨率、高质量视频生成的关键步骤。


注意,Stable Video Diffusion模型的参数没有完整公布,根据它是Stable Diffusion 2.1加入时空卷积和注意力层的模型架构,它的参数应该是大于Stable Diffusions 2.1。而SD 2.1模型的参数为9.83亿,因此,该模型的参数数量应该是超过10亿的。


训练技巧包括:

  • 按分辨率调整noise schedule
  • 采用EDM训练框架
  • 使用vanilla分类无关指导生成连贯结果


SVD模型相关的信息表格总结如下:


SVD信息详细内容
模型名称Stable Video Diffusion (SVD)
架构基于Stable Diffusion 2.1,包括时序层和噪声调整
训练阶段1. 图像预训练(2D文本到图像)
2. 视频预训练(大量视频数据)
3. 高质量视频微调(小型高质量视频数据集)
基本模型训练初始分辨率256×384,迭代150k次;微调分辨率320×576,迭代100k次
高分辨率文本到视频模型微调数据集约1M样本,分辨率576×1024,迭代50k次
高分辨率图像到视频模型两个版本(14帧和25帧),具体的微调细节未提供
Camera Motion  LoRAs训练用于控制图像到视频生成中的相机运动,涵盖水平移动、变焦和静态
帧插值通过预测两个条件帧内的三个帧来提高帧率,仅需迭代约10k次
多视角生成在多视角数据集上微调,如Objaverse和MVImgNet,用于生成单个图像的多视角序列
应用和性能用于高质量的文本到视频和图像到视频合成,多视角生成表现优于现有技术,且计算成本更低


注意,SVD模型的代码通过MIT协议开源,完全免费商用授权。但是预训练结果官方说只能用于研究目的(research purpose only),不可以商用!。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码