Google家的Text-to-Video模型——高清晰度高帧率的视频生成模型Imagen Video

标签:DiffusionModel,Text-to-Video,视频生成 时间:2022-10-06 13:29:14.773 发布者:小木

论文名:Imagen Video: High Definition Video Generation With Diffusion Models
发布时间:2022年10月
论文地址:https://imagen.research.google/video/paper.pdf
代码地址:

原文摘要:我们提出了Imagen Video,一个基于视频扩散模型级联的文本条件的视频生成系统。给定一个文本提示,Imagen Video使用一个基本的视频生成模型和一个交错的空间和时间视频超分辨率模型序列来生成高清视频。我们描述了我们如何将该系统扩展为一个高清文本到视频模型,包括设计决策,如在某些分辨率下选择完全卷积的时间和空间超分辨率模型,以及扩散模型的v参数化选择。此外,我们确认并将以前基于扩散的图像生成工作中的发现转移到视频生成环境中。最后,我们将渐进式蒸馏法应用于我们的视频模型,在无分类器指导下进行快速、高质量的采样。我们发现Imagen Video不仅能够生成高保真的视频,而且还具有高度的可控性和世界知识,包括生成各种艺术风格的多样化视频和文本动画的能力,以及对三维物体的理解。见imagen.research.google/video的样本。