VideoBooth - VideoBooth

模型详细情况和参数

VideoBooth

模型全称
VideoBooth
模型简称
VideoBooth
模型类型
视觉大模型
发布日期
2023-12-01
预训练文件大小
10.04GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
30.0
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
Apache 2.0 - 免费商用授权
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型

VideoBooth 简介

LaVie团队最新的作品,基于图片prompt生成视频的大模型。这个模型最大的特点是提出了一个新的任务,即将文本生成视频的任务变成文本+图片一起生成新视频。


这个任务的目标是生成不仅与文本描述相匹配,而且还符合图像提示中指定的视觉属性的视频。


为了实现这一目标,模型采用了两阶段方法:


通过图像编码器进行粗略的视觉嵌入:使用图像编码器从图像提示中提取视觉特征。然后,这些视觉特征被映射到文本嵌入空间,并与文本嵌入连接起来。这提供了图像提示的视觉外观的粗略编码。


通过注意力注入进行精细的视觉嵌入:将图像提示直接注入到文本到视频模型的跨帧注意力模块的不同层中。这是通过将图像提示的潜在表示作为额外的键和值附加到注意力模块来实现的。


这种粗到细的方法具有以下好处:


图像编码器提供了图像提示的全局表示,而注意力注入提供了细粒度的细节。

通过将图像提示注入到注意力模块中,模型可以直接从图像提示中借用视觉线索,以细化生成帧中的合成细节。

在不同层注入图像提示,使模型能够使用具有空间细节的多尺度特征来控制精细视觉特性的生成。


总结来说,这个模型提出了一种两阶段方法,首先使用图像编码器嵌入粗略的视觉信息,然后通过将图像提示直接注入到文本到视频模型的注意力模块中来进一步细化生成的视频。这种粗到细的方法帮助模型捕捉并反映在生成的视频中图像提示指定的视觉属性。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

VideoBooth所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

VideoBooth相关的任务