VideoBooth
VideoBooth
模型参数
30.0亿
上下文长度
2K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-12-01
模型文件大小
10.04GB
MoE架构
否
总参数 / 激活参数
30.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
上海人工智能实验室
查看发布机构详情 模型解读
LaVie团队最新的作品,基于图片prompt生成视频的大模型。这个模型最大的特点是提出了一个新的任务,即将文本生成视频的任务变成文本+图片一起生成新视频。
这个任务的目标是生成不仅与文本描述相匹配,而且还符合图像提示中指定的视觉属性的视频。
为了实现这一目标,模型采用了两阶段方法:
通过图像编码器进行粗略的视觉嵌入:使用图像编码器从图像提示中提取视觉特征。然后,这些视觉特征被映射到文本嵌入空间,并与文本嵌入连接起来。这提供了图像提示的视觉外观的粗略编码。
通过注意力注入进行精细的视觉嵌入:将图像提示直接注入到文本到视频模型的跨帧注意力模块的不同层中。这是通过将图像提示的潜在表示作为额外的键和值附加到注意力模块来实现的。
这种粗到细的方法具有以下好处:
图像编码器提供了图像提示的全局表示,而注意力注入提供了细粒度的细节。
通过将图像提示注入到注意力模块中,模型可以直接从图像提示中借用视觉线索,以细化生成帧中的合成细节。
在不同层注入图像提示,使模型能够使用具有空间细节的多尺度特征来控制精细视觉特性的生成。
总结来说,这个模型提出了一种两阶段方法,首先使用图像编码器嵌入粗略的视觉信息,然后通过将图像提示直接注入到文本到视频模型的注意力模块中来进一步细化生成的视频。这种粗到细的方法帮助模型捕捉并反映在生成的视频中图像提示指定的视觉属性。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
