可能比runway更好!StabilityAI最新开源文本生成视频大模型:Stable Video Diffusion,可以生成最多20帧的视频,但不可商用

标签:#StabilityAI##StableVideoDiffusion##Text-to-Video##文本生成视频# 时间:2023/11/25 08:23:52 作者:小木

在深度学习和计算机视觉的发展历程中,视频生成技术一直是一个极具挑战和创新的领域。而发布了一系列开源领域最强图像生成模型Stable Diffusion系列模型背后的企业StabilityAI最近又开源了一个的文本生成视频大模型Stable Video Diffusion模型,这个模型可以生成最多20帧的视频。

SVD生成视频演示

Stable Video Diffusion的生成效果

[TOC]

SVD模型简介

SVD全称Stable Video Diffusion,是StabilityAI最新的开源文本生成视频大模型。这个模型是基于Stable Diffusion 2.1进行初始化,然后通过在图像模型中插入时空卷积和注意力层来构建这个视频生成模型的架构,最终在1.52亿视频数据集上训练得到。

SVD模型是一种潜在视频扩散模型,用于高分辨率的文本到视频和图像到视频生成。这种模型的核心思想是在已有的2D图像合成模型基础上,通过加入时序层并在高质量的视频数据集上进行微调,从而实现生成视频的能力。

SVD系列模型包含2个版本,一个是可以生成14帧576x1024图像的SVD常规模板,一个是可以生成20帧的SVD-XT的微调版本。二者除了生成视频的帧数不一样外,其它都是完全相同的。

二者的开源地址和详细信息参考DataLearner模型信息卡:

模型名称 视频帧数 开源情况 DataLearner模型信息卡地址
Stable Video Diffusion 14帧 允许研究,不允许商用 https://www.datalearner.com/ai-models/pretrained-models/SVD
Stable Video Diffusion - XT 20帧 允许研究,不允许商用 https://www.datalearner.com/ai-models/pretrained-models/SVD-XT

SVD模型的架构细节

Stable Video Diffusion模型是在1.5亿短视频上训练的,而这些短视频的数据来自StabilityAI收集处理。然后Stable Video Diffusion模型通过使用Stable Diffusion 2.1的图像模型进行初始化,插入时空卷积和注意力层来构建视频模型的架构,在上述视频数据训练后得到。

SVD的训练视频数据集

StabilityAI官方没有公开Stable Video Diffusion模型的训练数据集,但是详细说明了相关处理过程。

  • 收集大量长视频作为初始训练集:这部分数据如何收集没有描述
  • 多级别切片检,拆分长视频为短视频片段,获得5.8亿短视频:StabilityAI通过设计多级别的切片检测Pipeline,大幅提高了切片的数量。
  • 为每个短视频生成3种不同的文字描述:使用图像字幕模型CoCa为短视频的中间帧生成描述,使用视频-文本模型V-BLIP为整个短视频生成描述,并基于上述两个结果使用大语言模型(LLM)生成第三种描述。
  • 计算每个短视频的运动分数、美学分数、文本相似度等:引入运动分数、美学分数等指标排序过滤视频。最终获得1.52亿经过筛选的短视频样本
SVD模型的具体架构信息

Stable Video Diffusion模型是基于Stable Diffusion 2.1模型初始化得到的。视频模型架构主要基于latent video diffusion模型,关键架构细节如下:

这篇文章使用的视频模型架构主要基于latent video diffusion模型,关键架构细节如下:

  1. 基础框架
    使用Stable Diffusion 2.1图像模型进行初始化,提供强大的视觉表示能力。

  2. 插入时空层
    在图像模型的每一个空间卷积块和自注意力块之后,插入时空卷积层和时空自注意力层。

  3. 条件方式
    用于文本到视频生成。使用CLIP编码的文本作为条件,融入到模型输入中。

  4. 训练策略
    分三个阶段进行:图像预训练,视频预训练,高分辨率视频微调。

  5. 生成策略
    使用EDM框架,相比DDPM/DDIM shifted更多noise到模型输入中。

  6. 其他细节
    引入帧率微调控制;使用渐进式的vanilla指导避免生成失真。

总的来说,模型主要基于latent diffusion视频模型的经典框架,借鉴图像模型的成功经验,同时在训练策略上进行了重点优化。

SVD模型的训练过程

SVD模型的训练分为3个阶段:

  1. 图像预训练:使用Stable Diffusion 2.1的图像模型进行初始化。这提供了强大的视觉表示能力。
  2. 视频预训练:在预训练的图像模型中插入时空卷积和注意力层,构建视频模型的架构。在大规模视频数据集上预训练视频模型。该数据集是通过提出的系统性数据筛选方法获得,包含1.52亿개视频样本。这一阶段是在较低分辨率下进行,获得通用的运动表示。
  3. 高分辨率视频微调:使用少量高质量视频数据(约100万)在更高分辨率下进行模型微调。这是获得高分辨率、高质量视频生成的关键步骤。

SVD模型的效果

StabilityAI在很多数据集上做了一些评估,认为SVD的效果很好,下图是一个SVD与runway、pika labs效果对比结果:

SVD模型与runway对比

可以看到,SVD模型的25帧效果是比二者都好的。普通版本则与runway差不多。

Stable Video Diffusion总结

Stable Video Diffusion模型是一个质量很高的文本生成视频的大模型。从现有的效果看,视频质量很自然,美观度很高。不过有一点可惜的是这个模型只允许研究目的,不允许商用

但总的来说:

  • 该模型在生成高分辨率、高质量的视频方面表现出色,特别是在文本到视频和图像到视频转换任务中。
  • 模型能够处理复杂的场景和动态内容,生成的视频在视觉上连贯且现实感强。
  • 在与其他最新技术模型的对比中,这个模型在多个方面显示出优越性,包括图像清晰度、内容一致性和创造性。
  • 人类评审者的反馈也支持这些发现,他们普遍认为该模型生成的视频质量高,符合文本描述,展示了模型的高效性和实用性。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送