Gemini Omni

Name: Gemini Omni (Gemini Omni Series)
Author: Google Deep Mind

推理大模型Gemini OmniGemini Omni

Gemini Omni (Gemini Omni Series)

发布时间: 2026-05-19122

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

暂无数据

中文支持

不支持

推理能力

Gemini Omni (Gemini Omni Series) 是由 Google Deep Mind 发布的 AI 模型，发布时间为 2026-05-19，定位为推理大模型，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Gemini Omni

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

暂无数据

最大输出长度

暂无数据

模型类型

推理大模型

输入/输出模态

文本、图像、音频、视频 → 文本、图像、音频、视频

发布时间

2026-05-19

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

Gemini Omni

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

Gemini Omni

官方介绍与博客

官方论文

The Gemini app becomes more agentic, delivering proactive, 24/7 help

DataLearnerAI博客

暂无介绍博客

Gemini Omni

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

Gemini Omni

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Gemini Omni

发布机构

Google Deep Mind

查看发布机构详情

Gemini Omni (Gemini Omni Series)

模型解读

Gemini Omni 模型简介与核心特点

Gemini Omni 是由 Google DeepMind 在 2026 年 5 月 19 日 Google I/O 大会上正式发布的全新多模态 AI 模型系列，属于 Google Gemini 模型家族的最新旗舰成员。该模型被定位为“世界模型”向前迈出的关键一步，其核心目标是打造一个能够“从任何输入生成任何输出”的原生多模态系统。Gemini Omni 将 Gemini 系列的推理能力与 Google 的生成式媒体技术深度融合，旨在提升 AI 对物理世界的理解、跨模态生成能力和交互式编辑精度，首个公开版本为 Gemini Omni Flash，率先落地视频输出能力。

架构与技术规格

Gemini Omni 采用原生多模态架构，即从设计之初便作为统一模型来训练，能够在同一个前向传播中跨模态进行推理，而非由多个专项模型拼接而成的流水线系统。这种架构层面的整合带来了更连贯的编辑效果、更少的管线伪影，并为开发者提供了更简洁的 API 接口。目前 Google 尚未公开该模型的详细参数量、激活参数量和上下文窗口等具体技术规格，相关信息有待后续官方技术报告披露。

核心能力与支持模态

Gemini Omni 是 Google 首款真正意义上的原生多模态模型，其输入模态涵盖文本、图像、音频和视频。在输出方面，该模型现阶段以视频生成为核心落地场景，能够基于真实世界知识生成高质量视频内容，并支持对话式视频编辑。用户可通过自然语言指令实现场景修改、对象替换、光照调整和镜头运动等操作，无需传统的视频编辑工具。Google 已明确表示，未来 Gemini Omni 的输出模态将进一步扩展至音频和图像，最终实现全模态的“任何输入到任何输出”能力。此外，Omni 展现出对直觉物理学的高级理解能力，能够模拟重力、动能和流体行为等物理现象，从而生成更加逼真的视频内容。

性能与基准评测

截至目前，Google 尚未针对 Gemini Omni 发布独立的标准基准测试成绩（如 MMLU、GPQA 等）。该模型的公开性能评估主要集中在定性层面的视频生成质量和物理模拟逼真度。

应用场景与限制

Gemini Omni 目前推荐的应用场景包括：通过自然语言指令进行高质量视频内容创作、对话式视频编辑与后期处理、利用模板快速生成品牌化视频内容，以及结合 AI 虚拟形象的个人化视频制作。在已知局限方面，当前 Omni Flash 版本主要面向 Google AI Plus、Pro 和 Ultra 订阅用户开放，API 接口的开放时间和定价尚未公布，企业级开发者尚无法通过 API 直接集成；同时，生成视频时长目前限于 4 至 10 秒的短片段。

访问方式与许可

Gemini Omni Flash 目前已面向 Google AI Plus、Pro 和 Ultra 订阅用户开放，可通过 Gemini App、Google Flow 和 YouTube Shorts 使用。所有通过 Gemini Omni 生成的内容均内嵌不可察觉的 SynthID 数字水印，以支持内容溯源和真伪验证。Google 已宣布将推出 API 接口，但具体上线日期和定价信息尚未公布。该模型目前未开源，亦未在 Hugging Face 等平台提供公开模型权重下载。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送