Text-to-Video来临!——Meta AI发布最新的视频生成预训练模型
DALLE·2的出现,让大家认识到原来文本生成图片可以做到如此逼真效果,此后Stable Diffusion的开源也让大家把Text-to-Image玩出花了。而现在,Meta AI的研究人员让这个工作继续往前一步,发布了Text-to-Video的预训练模型:Make-A-Video。
Make-A-Video是研究基于文本到图像生成技术的最新进展,该技术旨在实现文本到视频的生成。该系统使用带有描述的图像来了解世界是什么样子的,以及它通常是如何被描述的。它还使用未标记的视频来了解世界是如何移动的。有了这些数据,Make-A-Video可以让您通过仅用几个单词或几行文本生成异想天开、独一无二的视频,将您的想象力带入生活。
下图就是一个基于文本生成的视频结果(A dog wearing a Superhero outfit with red cape flying through the sky):

目前,Make-A-Video可以生成三种不同风格的视频:Surreal(离奇的)、Realistic(现实的)和Stylized(风格化的)。
此外,它也可以让静态图变成动态的。例如,下图是一个航行的图片:

我们可以基于模型生成如下动图:

可以看到,十分的逼真!
MetaAI的这部分工作已经以论文的形式发表:https://www.datalearner.com/ai-resources/ai-paper-news/1051664469436922
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
