谷歌发布视频大模型Veo 3.1：电影级别的视频生成，声音合成和同步能力大幅提升，但相比较Sora2依然有明显差距！

就在今日，Google 正式推出 Veo 3.1 和 Veo 3.1 Fast，这两款升级版视频生成模型以付费预览形式登陆 Gemini API。Veo 3.1的核心亮点是：更丰富的原生音频（从自然对话到同步音效）、更强的电影风格理解与叙事控制、以及**显著增强的图生视频（Image-to-Video）**质量与一致性。

Google的Veo系列视频生成大模型简介以及问题

Veo 是 Google 的生成式视频模型系列，专注于从文本、图像或其他输入生成高品质视频内容。2024年5月份谷歌首次发布了Veo 1模型，用于挑战OpenAI的Sora系列。7个月后的2024年12月份，谷歌发布了Veo 2，提升状态艺术级的视频和图像生成，可以和Imagen3结合，同时在物理模拟和风格一致性上有了不小的改进。

2025年5月份，谷歌推出了Veo 3，定位为的创作引擎：它强调（景别、机位、运动、光影）、（对白与声效同步）、以及等能力。支持多人物互动和复杂场景。同时推出了Flow工具，也就是Google 的 AI 电影制作工具，半年后的今天，全球用户已经在Flow中生成了2.75亿个视频。

版本	发布日期	核心亮点
Veo 1	2024 年 5 月	首次公开，支持 1080p 分辨率视频生成，时长超过 1 分钟；强调创意控制和真实感，挑战 OpenAI 的 Sora。
Veo 2	2024 年 12 月	提升状态艺术级视频和图像生成，与 Imagen 3 结合；改进物理模拟和风格一致性。
Veo 3	2025 年 5 月（Google I/O 2025）	电影级叙事能力，支持多人物互动和复杂场景；生成高清视频，集成编辑工具如场景扩展。
Veo 3.1	2025 年 10 月	引入原生音频生成（对话、音效、环境声）；增强编辑功能（如 Insert/Remove），支持多参考图像保持一致性。

参数类别	OpenAI Sora 2	Google Veo 3.1	优胜方
输出格式	MP4，24 fps；同步音频（对话/SFX）。	MP4，24 fps；同步音频（对话/SFX）。	平手。
分辨率	1080p（默认，1920x1080）；4K 测试中（Pro 版）。	720p（默认）；1080p（限 8s）。	Sora 2（更高清）。
宽高比	16:9/9:16；支持自定义。	16:9（默认）；9:16。参考图像限 16:9。	平手。
持续时间	5-10s（默认）；Pro 扩展至 60s。	4-8s（默认）；扩展至 148s（最多 20 次）。	Veo 3.1（更长）。
输入模态	文本（≤2048 tokens）；图像/Cameo（多变体）；视频续接。负提示支持。	文本（≤1024 tokens）；最多 3 张图像；视频扩展。负提示。	Sora 2（更多变体）。
生成限制	每次 1-5 个；种子可选；高峰延迟 2-5 分钟。安全过滤阻塞 NSFW。

谷歌发布视频大模型Veo 3.1：电影级别的视频生成，声音合成和同步能力大幅提升，但相比较Sora2依然有明显差距！

Google的Veo系列视频生成大模型简介以及问题

DataLearner 官方微信

Google Veo 3.1的核心特点

Veo 3.1实测：与Sora2依然有明显差距

Veo 3.1总结

热门博客