Gemini Omni (Gemini Omni Series)
Gemini Omni (Gemini Omni Series) 是由 Google Deep Mind 发布的 AI 模型,发布时间为 2026-05-19,定位为 推理大模型,采用 不开源 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
暂时没有为该模型整理的相关对比页面。
想自定义其他组合?打开对比工具
Gemini Omni 是由 Google DeepMind 在 2026 年 5 月 19 日 Google I/O 大会上正式发布的全新多模态 AI 模型系列,属于 Google Gemini 模型家族的最新旗舰成员。该模型被定位为“世界模型”向前迈出的关键一步,其核心目标是打造一个能够“从任何输入生成任何输出”的原生多模态系统。Gemini Omni 将 Gemini 系列的推理能力与 Google 的生成式媒体技术深度融合,旨在提升 AI 对物理世界的理解、跨模态生成能力和交互式编辑精度,首个公开版本为 Gemini Omni Flash,率先落地视频输出能力。
Gemini Omni 采用原生多模态架构,即从设计之初便作为统一模型来训练,能够在同一个前向传播中跨模态进行推理,而非由多个专项模型拼接而成的流水线系统。这种架构层面的整合带来了更连贯的编辑效果、更少的管线伪影,并为开发者提供了更简洁的 API 接口。目前 Google 尚未公开该模型的详细参数量、激活参数量和上下文窗口等具体技术规格,相关信息有待后续官方技术报告披露。
Gemini Omni 是 Google 首款真正意义上的原生多模态模型,其输入模态涵盖文本、图像、音频和视频。在输出方面,该模型现阶段以视频生成为核心落地场景,能够基于真实世界知识生成高质量视频内容,并支持对话式视频编辑。用户可通过自然语言指令实现场景修改、对象替换、光照调整和镜头运动等操作,无需传统的视频编辑工具。Google 已明确表示,未来 Gemini Omni 的输出模态将进一步扩展至音频和图像,最终实现全模态的“任何输入到任何输出”能力。此外,Omni 展现出对直觉物理学的高级理解能力,能够模拟重力、动能和流体行为等物理现象,从而生成更加逼真的视频内容。
截至目前,Google 尚未针对 Gemini Omni 发布独立的标准基准测试成绩(如 MMLU、GPQA 等)。该模型的公开性能评估主要集中在定性层面的视频生成质量和物理模拟逼真度。
Gemini Omni 目前推荐的应用场景包括:通过自然语言指令进行高质量视频内容创作、对话式视频编辑与后期处理、利用模板快速生成品牌化视频内容,以及结合 AI 虚拟形象的个人化视频制作。在已知局限方面,当前 Omni Flash 版本主要面向 Google AI Plus、Pro 和 Ultra 订阅用户开放,API 接口的开放时间和定价尚未公布,企业级开发者尚无法通过 API 直接集成;同时,生成视频时长目前限于 4 至 10 秒的短片段。
Gemini Omni Flash 目前已面向 Google AI Plus、Pro 和 Ultra 订阅用户开放,可通过 Gemini App、Google Flow 和 YouTube Shorts 使用。所有通过 Gemini Omni 生成的内容均内嵌不可察觉的 SynthID 数字水印,以支持内容溯源和真伪验证。Google 已宣布将推出 API 接口,但具体上线日期和定价信息尚未公布。该模型目前未开源,亦未在 Hugging Face 等平台提供公开模型权重下载。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
