LaVie

Name: LaVie
Author: 上海人工智能实验室

视觉大模型

LaVie

发布时间: 2023-09-26更新于: 2023-12-05 20:02:40.245611

在线体验GitHub Hugging Face Compare

模型参数

30亿

上下文长度

中文支持

不支持

推理能力

LaVie 是由上海人工智能实验室发布的 AI 模型，发布时间为 2023-09-26，定位为视觉大模型，参数规模约为 30亿，上下文长度为 2K，模型文件大小约 10.04GB，采用 Apache 2.0 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

LaVie

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

视觉大模型

输入/输出模态

暂无数据

发布时间

2023-09-26

模型文件大小

10.04GB

MoE架构

否

总参数 / 激活参数

30亿 / 不涉及

知识截止

暂无数据

LaVie

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

https://github.com/Vchitect/LaVie

Hugging Face

https://huggingface.co/Vchitect/LaVie

在线体验

暂无在线体验地址

LaVie

官方介绍与博客

官方论文

LaVie: High-Quality Video Generation with Cascaded Latent Diffusion Models

DataLearnerAI博客

暂无介绍博客

LaVie

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

LaVie

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

LaVie

发布机构

上海人工智能实验室

查看发布机构详情

LaVie

模型解读

LaVie是一个基于文本的视频生成模型，它的目标是通过使用预训练的文本到图像（T2I）模型作为基础，来学习生成高质量的视频。这个任务具有很高的期望价值，但同时也面临着挑战，包括同时实现视觉真实性和时间上的连贯性，同时保留预训练T2I模型的强大创造性。为了实现这一目标，LaVie采用了一种集成的视频生成框架，该框架基于级联视频潜在扩散模型，包括基础的文本到视频（T2V）模型、时间插值模型和视频超分辨率模型。

LaVie模型的原理和特点

频，它需要不仅在视觉上吸引人，还要在时间上连贯，同时保持预训练的文本到图像（T2I）模型的创造力。为了实现这些目标，LaVie采用了一个独特的集成框架，结合了多个专门的子模块。以下是对这个模型原理的详细说明：

模型架构：LaVie模型的核心是一个级联的视频潜在扩散模型，这种架构包括三个主要部分：

基础的文本到视频（T2V）模型：这部分的目标是生成关键帧，它利用文本描述来生成视频的单个帧。这一步骤是基于预训练的T2I模型，可以保证生成的关键帧在视觉上具有高质量和丰富的创造性。
时间插值模型：这个模块负责在基础T2V模型生成的关键帧之间创建平滑的过渡，从而增加视频的时间细节和连贯性。通过这种方式，LaVie能够生成在时间上更加流畅和自然的视频。
视频超分辨率模型：这一部分用于提升视频的视觉质量，通过提高空间分辨率来生成更清晰、细腻的视频。

设计理念：

时间上的连贯性：视频不仅要在每一帧中看起来真实和引人入胜，而且还要在时间上流畅连续。时间插值模型正是为了解决这一挑战而设计的，它可以在关键帧之间有效地创建平滑的过渡。

视觉质量和创造力：通过利用先进的T2I模型，LaVie能够在保持视频创造性的同时，确保每一帧的视觉质量。这是因为预训练的T2I模型已经在生成高质量、多样化图像方面表现出色。

高分辨率视频生成：视频超分辨率模型的引入是为了进一步提升视频的视觉效果，特别是在高分辨率视频生成方面。

数据集

LaVie使用了Vimeo25M数据集，这是一个专门为视频生成任务设计的大规模、高分辨率的文本-视频数据集。这个数据集的引入对于模型训练和性能提升至关重要，因为它提供了丰富多样的视频内容，帮助模型更好地学习视频生成的各个方面。

LaVie模型的效果

通过广泛的实验，LaVie在定量和定性方面都达到了最先进的性能。它能够在多种长视频生成和个性化视频合成应用中表现出其多功能性。

结论方面，LaVie通过利用预训练的T2I模型作为基础，成功地解决了视频生成中的关键挑战，实现了视觉真实性和时间上的连贯性，同时保留了创造性。该模型的创新之处在于其级联扩散模型的架构，以及对时间关系的有效建模。此外，新的Vimeo25M数据集对提高模型性能也起到了关键作用。

LaVie的在线演示地址： https://huggingface.co/spaces/Vchitect/LaVie

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送