Text-to-Video来临！——Meta AI发布最新的视频生成预训练模型

标签：#text-to-image##text-to-video# 时间：2022/09/30 00:39:18 作者：小木

DALLE·2的出现，让大家认识到原来文本生成图片可以做到如此逼真效果，此后Stable Diffusion的开源也让大家把Text-to-Image玩出花了。而现在，Meta AI的研究人员让这个工作继续往前一步，发布了Text-to-Video的预训练模型：Make-A-Video。

Make-A-Video是研究基于文本到图像生成技术的最新进展，该技术旨在实现文本到视频的生成。该系统使用带有描述的图像来了解世界是什么样子的，以及它通常是如何被描述的。它还使用未标记的视频来了解世界是如何移动的。有了这些数据，Make-A-Video可以让您通过仅用几个单词或几行文本生成异想天开、独一无二的视频，将您的想象力带入生活。

下图就是一个基于文本生成的视频结果（A dog wearing a Superhero outfit with red cape flying through the sky）：

A dog wearing a Superhero outfit with red cape flying through the sky

目前，Make-A-Video可以生成三种不同风格的视频：Surreal（离奇的）、Realistic（现实的）和Stylized（风格化的）。

此外，它也可以让静态图变成动态的。例如，下图是一个航行的图片：

我们可以基于模型生成如下动图：

可以看到，十分的逼真！

MetaAI的这部分工作已经以论文的形式发表：https://www.datalearner.com/ai-resources/ai-paper-news/1051664469436922

Text-to-Video来临！——Meta AI发布最新的视频生成预训练模型

欢迎大家关注DataLearner官方微信，接受最新的AI技术推送

相关博客

最热博客