基于文本生成可变长度的视频模型发布Phenaki

标签:text-to-video 时间:2022-09-30 15:26:10.705 发布者:小木

论文名:Phenaki: Variable Length Video Generation from Open Domain Textual Descriptions
发布时间:2022年9月
论文地址:https://openreview.net/forum?id=vOEXS39nOF
代码地址:

原文摘要:我们提出了Phenaki,一个能够给定一连串文字提示的现实视频合成的模型。由于计算成本、高质量文本-视频数据的数量有限以及视频长度的变化,从文本中生成视频特别具有挑战性。为了解决这些问题,我们引入了一个新的因果模型来学习视频表示,该模型将视频压缩为一个小的离散标记表示。这个标记器在时间上是自动回归的,这使它能够与不同长度的视频表示一起工作。 为了从文本中生成视频标记,我们使用了一个以预先计算的文本标记为条件的双向掩码变换器。生成的视频标记随后被去标记化,以创建实际的视频。为了解决数据问题,我们展示了在图像-文本对的大型语料库以及数量较少的视频-文本实例上的联合训练如何能够导致超越视频数据集所提供的泛化效果。与以前的视频生成方法相比,Phenaki可以在开放的领域中以一连串的提示(即时间可变的文本或故事)为条件生成任意的长视频。据我们所知,这是第一次有论文研究从时间变量提示中生成视频。