Google家的Text-to-Video模型——高清晰度高帧率的视频生成模型Imagen Video

原文摘要：我们提出了Imagen Video，一个基于视频扩散模型级联的文本条件的视频生成系统。给定一个文本提示，Imagen Video使用一个基本的视频生成模型和一个交错的空间和时间视频超分辨率模型序列来生成高清视频。我们描述了我们如何将该系统扩展为一个高清文本到视频模型，包括设计决策，如在某些分辨率下选择完全卷积的时间和空间超分辨率模型，以及扩散模型的v参数化选择。此外，我们确认并将以前基于扩散的图像生成工作中的发现转移到视频生成环境中。最后，我们将渐进式蒸馏法应用于我们的视频模型，在无分类器指导下进行快速、高质量的采样。我们发现Imagen Video不仅能够生成高保真的视频，而且还具有高度的可控性和世界知识，包括生成各种艺术风格的多样化视频和文本动画的能力，以及对三维物体的理解。见imagen.research.google/video的样本。

谷歌研究院的研究人员提出了一个新的基于Diffusion的视频生成模型Imagen Video。此前，他们提出的Text-to-Image模型Imagen效果十分惊艳（[Imagen 预训练模型详情](https://www.datalearner.com/ai-resources/pretrained-models/Imagen "Imagen 预训练模型详情")）。从名字看，这也是基于Imagen架构演化的视频生成模型。

与其它的Text-to-Video模型不同，Imagen Video有一些独特功能，如生成不同艺术风格的视频，3D理解，以及文本渲染和动画等。在渐进式蒸馏的帮助下，Imagen Video可以生成高质量的视频，每个子模型只用8个扩散步骤。这大大加快了视频生成的时间，约为18倍。

下面是一些样例：
<center>
![](https://www.datalearner.com/resources/blog_images/8b8b84a2-f6e7-4f27-8951-cda3706b019d.gif)
</center>
<center></center>
<center>![](https://www.datalearner.com/resources/blog_images/cb115534-1280-417a-8ac7-c629ff5675f0.gif)</center>
<center></center>
<center>![](https://www.datalearner.com/resources/blog_images/df137c68-a5e8-4927-ad98-a05726bd1360.jpeg)</center>
<center></center>

这是压缩之后的gif，原版的视频是1024\*768且24fps的视频，效果更好。

这是Diffusion Model的又一个成果，也是Tex-to-Video最新的模型。

这个模型的主要贡献：
1. 我们展示了用于高清视频生成的级联扩散视频模型的简单性和有效性。
2. 我们确认最近在文本到图像设置中的发现转移到了视频生成中，如冻结编码器文本调节和无分类器指导的有效性。
3. 我们展示了对一般扩散模型有影响的视频扩散模型的新发现，如v-预测参数化对样本质量的有效性，以及在文本调节视频生成设置中引导扩散模型的渐进式提炼的有效性。
4. 我们展示了Imagen Video的定性可控性，如三维物体的理解、文本动画的生成以及各种艺术风格的视频的生成。

Imagen Video使用的是Video U-Net架构：
<center>![](https://www.datalearner.com/resources/blog_images/d9c4a2e2-8697-41ec-aca7-e842f6e0ceae.jpeg)</center>
<center></center>

Imagen Video使用视频U-Net架构来捕捉空间保真度和时间动态。时间上的自我注意（如图所示）用于基本的视频扩散模型，而时间上的卷积（未在图中显示）用于时间和空间上的超分辨率模型。视频U-Net架构使Imagen Video有能力建立长期的时间动态模型!

不过可惜的是，官方没有放出预训练模型的结果和开源代码，不知道后续是否会有。

Google家的Text-to-Video模型——高清晰度高帧率的视频生成模型Imagen Video

论文名：Imagen Video: High Definition Video Generation With Diffusion Models

发布时间：2022年10月

论文地址：https://imagen.research.google/video/paper.pdf

代码地址：