DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Gemini 3.1 Flash TTS
GE

Gemini 3.1 Flash TTS

语音大模型

Gemini 3.1 Flash TTS (preview)

发布时间: 2026-04-164
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
8K
中文支持
不支持
推理能力

Gemini 3.1 Flash TTS (preview) 是由 Google Deep Mind 发布的 AI 模型,发布时间为 2026-04-16,定位为 语音大模型,参数规模约为 0.0B,上下文长度为 8K,采用 不开源 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Gemini 3.1 Flash TTS

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
8K tokens
最大输出长度
655 tokens
模型类型
语音大模型
发布时间
2026-04-16
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
0.0 亿 / 不涉及
知识截止
暂无数据
Gemini 3.1 Flash TTS

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://aistudio.google.com/app/generate-speech
Gemini 3.1 Flash TTS

官方介绍与博客

官方论文
Gemini 3.1 Flash TTS: the next generation of expressive AI speech
DataLearnerAI博客
暂无介绍博客
Gemini 3.1 Flash TTS

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$1.00--
音频--$20.00
缓存计费Cache
模态输入 Cache输出 Cache
文本$0.50--
音频--$10.00
Gemini 3.1 Flash TTS

评测结果

当前尚无可展示的评测数据。
Gemini 3.1 Flash TTS

发布机构

Google Deep Mind
Google Deep Mind
查看发布机构详情
Gemini 3.1 Flash TTS (preview)

模型解读

Gemini 3.1 Flash TTS 模型简介

Gemini 3.1 Flash TTS 是由 Google DeepMind 于 2026 年 4 月 16 日推出的最新文本转语音模型,目前以公开预览(public preview)形式在 Google AI Studio 和 Vertex AI 平台上线。该模型是 Gemini 3.1 系列中专为语音合成优化的版本,定位为高可控性、高表现力的 TTS 解决方案,旨在为开发者、企业及个人用户提供构建下一代 AI 语音应用的能力。

架构与技术规格

Gemini 3.1 Flash TTS 基于 Gemini 3.1 Flash 架构开发,谷歌尚未公开该模型的参数规模与激活参数量。模型支持输入文本加提示词合计最多 8,000 字节,单次生成的音频时长上限约 655 秒(约 11 分钟)。音频输出规格为 24 kHz 16 位单声道 PCM(audio/l16),可封装为 WAV 格式播放。所有生成的音频均嵌入 SynthID 数字水印,以便于识别 AI 生成内容。

核心能力与模态支持

该模型为纯文本输入、音频输出的 TTS 模型,不涉及图像、视频等其他模态。其核心能力体现在三个方面:

  • 高保真语音生成:模型在超过 70 种语言上提供自然、清晰的语音合成效果,支持多说话人对话场景。
  • 精细可控性:开发者可通过自然语言提示词控制语音风格、语调、语速和口音,也可在文本中嵌入 200 多种音频标签(如 [whispers]、[excitedly]、[short pause]),实现对语气、节奏和表达的实时调节。
  • 全局场景编排:支持场景设定、说话人级别的音频画像定义,以及将完整配置导出为 Gemini API 代码,确保语音角色在不同项目间保持一致性。

性能与基准评测

在第三方评测机构 Artificial Analysis 的 TTS 排行榜上,Gemini 3.1 Flash TTS 获得了 1,211 分的 Elo 评分。该排行榜基于数千次盲测人类偏好数据,模型因在语音质量与成本之间的良好平衡,被列入排行榜的“最具吸引力象限”。

应用场景与限制

官方推荐的应用场景包括:播客与有声书制作、语音助手与客服系统、无障碍辅助工具、新闻播报、语言教学等。模型目前处于预览阶段,音频标签仅支持英文书写(但可与非英文语种的文本内容组合使用)。开发者通过 Gemini API 或 Google AI Studio 访问该模型,企业用户可通过 Vertex AI 使用,Workspace 用户则可在 Google Vids 中体验。

访问方式与许可

Gemini 3.1 Flash TTS 以 API 形式提供服务,用户可通过 Google AI Studio 免费在线体验,或通过 Gemini API 以付费方式集成使用。谷歌未公开该模型的权重或开源代码,也未明确声明相关开源许可条款。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码