Gemini 3.1 Flash TTS (preview)
Gemini 3.1 Flash TTS (preview) 是由 Google Deep Mind 发布的 AI 模型,发布时间为 2026-04-16,定位为 语音大模型,参数规模约为 0.0B,上下文长度为 8K,采用 不开源 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | $1.00 | -- |
| 音频 | -- | $20.00 |
| 模态 | 输入 Cache | 输出 Cache |
|---|---|---|
| 文本 | $0.50 | -- |
| 音频 | -- | $10.00 |
Gemini 3.1 Flash TTS 是由 Google DeepMind 于 2026 年 4 月 16 日推出的最新文本转语音模型,目前以公开预览(public preview)形式在 Google AI Studio 和 Vertex AI 平台上线。该模型是 Gemini 3.1 系列中专为语音合成优化的版本,定位为高可控性、高表现力的 TTS 解决方案,旨在为开发者、企业及个人用户提供构建下一代 AI 语音应用的能力。
Gemini 3.1 Flash TTS 基于 Gemini 3.1 Flash 架构开发,谷歌尚未公开该模型的参数规模与激活参数量。模型支持输入文本加提示词合计最多 8,000 字节,单次生成的音频时长上限约 655 秒(约 11 分钟)。音频输出规格为 24 kHz 16 位单声道 PCM(audio/l16),可封装为 WAV 格式播放。所有生成的音频均嵌入 SynthID 数字水印,以便于识别 AI 生成内容。
该模型为纯文本输入、音频输出的 TTS 模型,不涉及图像、视频等其他模态。其核心能力体现在三个方面:
在第三方评测机构 Artificial Analysis 的 TTS 排行榜上,Gemini 3.1 Flash TTS 获得了 1,211 分的 Elo 评分。该排行榜基于数千次盲测人类偏好数据,模型因在语音质量与成本之间的良好平衡,被列入排行榜的“最具吸引力象限”。
官方推荐的应用场景包括:播客与有声书制作、语音助手与客服系统、无障碍辅助工具、新闻播报、语言教学等。模型目前处于预览阶段,音频标签仅支持英文书写(但可与非英文语种的文本内容组合使用)。开发者通过 Gemini API 或 Google AI Studio 访问该模型,企业用户可通过 Vertex AI 使用,Workspace 用户则可在 Google Vids 中体验。
Gemini 3.1 Flash TTS 以 API 形式提供服务,用户可通过 Google AI Studio 免费在线体验,或通过 Gemini API 以付费方式集成使用。谷歌未公开该模型的权重或开源代码,也未明确声明相关开源许可条款。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
