谷歌发布视频大模型Veo 3.1:电影级别的视频生成,声音合成和同步能力大幅提升,但相比较Sora2依然有明显差距!
就在今日,Google 正式推出 Veo 3.1 和 Veo 3.1 Fast,这两款升级版视频生成模型以付费预览形式登陆 Gemini API。Veo 3.1的核心亮点是:更丰富的原生音频(从自然对话到同步音效)、更强的电影风格理解与叙事控制、以及**显著增强的图生视频(Image-to-Video)**质量与一致性。

Google的Veo系列视频生成大模型简介以及问题
Veo 是 Google 的生成式视频模型系列,专注于从文本、图像或其他输入生成高品质视频内容。2024年5月份谷歌首次发布了Veo 1模型,用于挑战OpenAI的Sora系列。7个月后的2024年12月份,谷歌发布了Veo 2,提升状态艺术级的视频和图像生成,可以和Imagen3结合,同时在物理模拟和风格一致性上有了不小的改进。
2025年5月份,谷歌推出了Veo 3,定位为的创作引擎:它强调(景别、机位、运动、光影)、(对白与声效同步)、以及等能力。支持多人物互动和复杂场景。同时推出了Flow工具,也就是Google 的 AI 电影制作工具,半年后的今天,全球用户已经在Flow中生成了2.75亿个视频。



