Gemini 3.1 Flash TTS

Name: Gemini 3.1 Flash TTS (preview)
Author: Google Deep Mind

语音大模型Gemini AudioGemini 3.1

Gemini 3.1 Flash TTS (preview)

发布时间: 2026-04-16238

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

中文支持

不支持

推理能力

Gemini 3.1 Flash TTS (preview) 是由 Google Deep Mind 发布的 AI 模型，发布时间为 2026-04-16，定位为语音大模型，上下文长度为 8K，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Gemini 3.1 Flash TTS

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

8K tokens

最大输出长度

655 tokens

模型类型

语音大模型

输入/输出模态

文本 → 音频

发布时间

2026-04-16

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

Gemini 3.1 Flash TTS

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://aistudio.google.com/app/generate-speech

Gemini 3.1 Flash TTS

官方介绍与博客

官方论文

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

DataLearnerAI博客

暂无介绍博客

Gemini 3.1 Flash TTS

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

Gemini 3.1 Flash TTS

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Gemini 3.1 Flash TTS

发布机构

Google Deep Mind

查看发布机构详情

Gemini 3.1 Flash TTS (preview)

模型解读

Gemini 3.1 Flash TTS 模型简介

Gemini 3.1 Flash TTS 是由 Google DeepMind 于 2026 年 4 月 16 日推出的最新文本转语音模型，目前以公开预览（public preview）形式在 Google AI Studio 和 Vertex AI 平台上线。该模型是 Gemini 3.1 系列中专为语音合成优化的版本，定位为高可控性、高表现力的 TTS 解决方案，旨在为开发者、企业及个人用户提供构建下一代 AI 语音应用的能力。

架构与技术规格

Gemini 3.1 Flash TTS 基于 Gemini 3.1 Flash 架构开发，谷歌尚未公开该模型的参数规模与激活参数量。模型支持输入文本加提示词合计最多 8,000 字节，单次生成的音频时长上限约 655 秒（约 11 分钟）。音频输出规格为 24 kHz 16 位单声道 PCM（audio/l16），可封装为 WAV 格式播放。所有生成的音频均嵌入 SynthID 数字水印，以便于识别 AI 生成内容。

核心能力与模态支持

该模型为纯文本输入、音频输出的 TTS 模型，不涉及图像、视频等其他模态。其核心能力体现在三个方面：

高保真语音生成：模型在超过 70 种语言上提供自然、清晰的语音合成效果，支持多说话人对话场景。
精细可控性：开发者可通过自然语言提示词控制语音风格、语调、语速和口音，也可在文本中嵌入 200 多种音频标签（如 [whispers]、[excitedly]、[short pause]），实现对语气、节奏和表达的实时调节。
全局场景编排：支持场景设定、说话人级别的音频画像定义，以及将完整配置导出为 Gemini API 代码，确保语音角色在不同项目间保持一致性。

性能与基准评测

在第三方评测机构 Artificial Analysis 的 TTS 排行榜上，Gemini 3.1 Flash TTS 获得了 1,211 分的 Elo 评分。该排行榜基于数千次盲测人类偏好数据，模型因在语音质量与成本之间的良好平衡，被列入排行榜的“最具吸引力象限”。

应用场景与限制

官方推荐的应用场景包括：播客与有声书制作、语音助手与客服系统、无障碍辅助工具、新闻播报、语言教学等。模型目前处于预览阶段，音频标签仅支持英文书写（但可与非英文语种的文本内容组合使用）。开发者通过 Gemini API 或 Google AI Studio 访问该模型，企业用户可通过 Vertex AI 使用，Workspace 用户则可在 Google Vids 中体验。

访问方式与许可

Gemini 3.1 Flash TTS 以 API 形式提供服务，用户可通过 Google AI Studio 免费在线体验，或通过 Gemini API 以付费方式集成使用。谷歌未公开该模型的权重或开源代码，也未明确声明相关开源许可条款。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送