Gemini 3.1 Flash TTS (preview)
Gemini 3.1 Flash TTS (preview) is an AI model published by Google Deep Mind, released on 2026-04-16, for 语音大模型, with 0.0B parameters, and 8K tokens context length, under the 不开源 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
| Modality | Input | Output |
|---|---|---|
| Text | $1.00 | -- |
| Audio | -- | $20.00 |
| Modality | Input cache | Output cache |
|---|---|---|
| Text | $0.50 | -- |
| Audio | -- | $10.00 |
Gemini 3.1 Flash TTS 是由 Google DeepMind 于 2026 年 4 月 16 日推出的最新文本转语音模型,目前以公开预览(public preview)形式在 Google AI Studio 和 Vertex AI 平台上线。该模型是 Gemini 3.1 系列中专为语音合成优化的版本,定位为高可控性、高表现力的 TTS 解决方案,旨在为开发者、企业及个人用户提供构建下一代 AI 语音应用的能力。
Gemini 3.1 Flash TTS 基于 Gemini 3.1 Flash 架构开发,谷歌尚未公开该模型的参数规模与激活参数量。模型支持输入文本加提示词合计最多 8,000 字节,单次生成的音频时长上限约 655 秒(约 11 分钟)。音频输出规格为 24 kHz 16 位单声道 PCM(audio/l16),可封装为 WAV 格式播放。所有生成的音频均嵌入 SynthID 数字水印,以便于识别 AI 生成内容。
该模型为纯文本输入、音频输出的 TTS 模型,不涉及图像、视频等其他模态。其核心能力体现在三个方面:
在第三方评测机构 Artificial Analysis 的 TTS 排行榜上,Gemini 3.1 Flash TTS 获得了 1,211 分的 Elo 评分。该排行榜基于数千次盲测人类偏好数据,模型因在语音质量与成本之间的良好平衡,被列入排行榜的“最具吸引力象限”。
官方推荐的应用场景包括:播客与有声书制作、语音助手与客服系统、无障碍辅助工具、新闻播报、语言教学等。模型目前处于预览阶段,音频标签仅支持英文书写(但可与非英文语种的文本内容组合使用)。开发者通过 Gemini API 或 Google AI Studio 访问该模型,企业用户可通过 Vertex AI 使用,Workspace 用户则可在 Google Vids 中体验。
Gemini 3.1 Flash TTS 以 API 形式提供服务,用户可通过 Google AI Studio 免费在线体验,或通过 Gemini API 以付费方式集成使用。谷歌未公开该模型的权重或开源代码,也未明确声明相关开源许可条款。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
