Pika和HeyGen的开源替代品:上海人工智能实验室开源可以生成高质量最长61秒视频的LaVie文本生成视频大模型

标签:#LaVie##文本生成视频##视频大模型# 时间:2023/12/05 21:49:09 作者:小木

最近,初创企业Pika引起了全球的目光。这家公司发布的Pika 1.0产品可以基于生成式AI技术来创建3D动画视频或者电影级别的视频。由于其逼真的效果,引起了很多人的关注。本文则介绍一个由上海人工智能实验室开源的文本生成视频大模型LaVie。这个模型可以根据文本生成高质量的视频内容。


LaVie效果

LaVie模型的代码和预训练结果均已开源,地址参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/LaVie

[TOC]

LaVie模型介绍

LaVie模型是一个可以基于文本提示生成视频的大模型,也是三个模型连接的级联模型。LaVie模型的论文在9月底就已经公开。但是模型预训练结果是11月中上旬开源,这个模型参数共30亿,由三个模型级联组成。

LaVie在生成视频方面展现出了极高的质量。这主要得益于它的三部分架构:基础的文本到视频(T2V)模型、时间插值模型和视频超分辨率模型。这种集成方法允许LaVie在保持高视觉质量的同时,生成在时间上连贯和流畅的视频。

LaVie框架包含三个模块,它们的训练过程如下。

模块 初始化 主要数据集 其他数据集 目标
基础T2V模型 Stable Diffusion 1.4预训练模型 WebVid10M Laion5B 生成关键帧,保留创造性
时间插值(TI)模型 基础T2V模型 WebVid10M - 增强流畅性,补充细节
视频超分(VSR)模型 图像超分模型 WebVid10M
Laion5B
Laion5B(分辨率≥1024) 提升视觉质量与分辨率

首先,基础T2V模型利用WebVid10M和Laion5B数据集进行预训练,之后逐步引入Vimeo25M数据集进行微调。TI模型和VSR模型则分别基于预训练好的基础模型进行初始化,并使用相关视频数据集继续微调。

LaVie模型训练的数据集简介

这个模型使用了多个数据集,在不同的训练阶段进行训练。主要包括:

  • WebVid10M:1000万个文本-视频对数据集
  • Laion5B:50亿个图像-文本对数据集
  • Vimeo25M:2500万个高分辨率、审美性文本-视频对(本文提出)

其中,Vimeo25M数据集在提高模型性能方面起到关键作用。也是由这个团队收集的。尽管论文中团队说的是 contribute a comprehensive and diverse video dataset named Vimeo25M,但是目前还未看到开源地址。

相比WebVid10M,它包含更高分辨率、更好审美性的视频。

下图展示了Vimeo25M数据集的统计结果。

Vimeo25M数据集

LaVie模型的效果

下图是LaVie模型展示的一些视频截图:



从这些截图可以看到,LaVie模型生成的图片细节还是很不错的。而且各种风格都有不错的表现,包括现实照片风格、艺术画像等。在原论文中,作者在视觉质量、文本视频语义相似性、人类评估、量化评估中都做了丰富的比较。结论是LaVie在视觉质量方面表现优异,特别是在合成具有复杂空间和时间概念的视频时

在相同的实验设置下,LaVie的表现超过了Video LDM的最先进结果。在与Make-A-Video的比较中,尽管LaVie使用了较小的训练数据集,但在某些方面仍然表现出色。

LaVie模型的在线演示效果

官方在HuggingFace上发布了一个在线演示的space,大家可以自行尝试效果,可能由于硬件成本的原因,生成的视频限制在2秒。下图是我生成的视频(油画版的上海):


另外,模型本身是三个级联模型,因此可以选择不同的级联方式,效果也不相同,在官方的GitHub中,作者提供了四个生成视频的选择:

Step1 Step2 Step3 分辨率 视频长度
选型1 320x512 16
选型2 320x512 61
选型3 1280x2048 16
选型4 1280x2048 61

可以看到,这个模型最好的情况下可以生成可以生成61秒的1280x2048分辨率的视频。

模型的代码和预训练结果均为Apache2.0开源协议,大家自由试用,具体的模型预训练和代码开源地址以及在线演示地址参考DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/LaVie

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送