TT

TTS-1.6b-en_fr

语音大模型

TTS-1.6b-en_fr

发布时间: 2025-07-03 12

模型参数(Parameters)
16.0
最高上下文长度(Context Length)
4K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

4K tokens

最长输出结果
暂无数据
模型类型

语音大模型

发布时间

2025-07-03

模型预文件大小

3.68GB

开源和体验地址

代码开源状态
预训练权重开源
CC BY-SA-4.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
输入价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:
输出价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:

输入支持的模态

文本

输入支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出支持

Embedding(向量)

输出不支持

TTS-1.6b-en_fr模型在各大评测榜单的评分

发布机构

模型介绍

Kyutai TTS 是由研究机构 Kyutai 开发的一款开源流式文本转语音(Streaming Text-to-Speech)模型。其模型权重基于 CC-BY 4.0 许可证发布,旨在为开发者和研究者提供一个高性能的语音合成工具。

核心定义:流式语音合成

该模型的核心特性是“流式”处理。与需要接收完整文本才能生成音频的离线(Offline)模型不同,Kyutai TTS 在获得输入文本的最初几个词后,即可开始生成并输出对应的音频流。这种即时响应的机制,使其适用于需要低延迟交互的应用场景。

模型架构与技术细节

Kyutai TTS 的技术基础是一个分层 Transformer(Hierarchical Transformer)架构,它属于一个仅解码器(Decoder-only)模型。

  • 基本原理:模型直接处理 token化的文本,并生成由 Mimi 编码器(源自Moshi论文)token化的音频。
  • 音频参数:音频帧率为 12.5 Hz,每个音频帧由 32 个音频token构成。在推理(inference)时,可以通过减少每帧的token数量来提升生成速度。
  • 模型规模:骨干模型参数量为10亿,深度Transformer部分为6亿参数,并采用了类似于Hibiki模型的部分权重共享技术。
  • 流式实现:为实现流式输出,音频流在设计上相对于文本流延迟了16个步长(相当于1.28秒),同时模型采用了2个单位的声学/语义延迟。

功能与性能

  • 支持语言:模型目前支持英语和法语。
  • 语音定制:支持通过交叉注意力机制加载预计算的声音嵌入(voice embeddings),从而实现对生成语音音色的控制。Kyutai 在其 tts-voices 仓库中提供了一系列预设声音。
  • 性能优化:模型训练中采用了分类器无关指导蒸馏(CFG distillation)技术。这使得模型在推理时无需进行两次前向传播即可达到高质量输出,从而提升了运行效率。该模型易于进行批处理,其吞吐量可达到每单位计算时间生成75倍时长的音频。

安全与限制

该模型未集成音频水印功能。开发团队指出,对于开源模型,水印容易被移除;同时,实验表明现有水印系统在经过Mimi等编解码后会失效。

作为替代方案,模型通过限制声音克隆能力来防范滥用。用户只能使用官方提供的预计算声音嵌入,而不能随意克隆任意声音。

训练详情

  • 训练数据:模型在一个包含250万小时公开音频的数据集上进行预训练。该数据集的文本稿由 whisper-medium 模型结合 whisper-timestamped 工具合成。
  • 训练过程:模型首先在32块 NVIDIA H100 GPU上进行了75万步的训练(批大小为64,片段时长120秒),随后在8块同型号GPU上执行了2.4万步的CFG蒸馏。

总结

Kyutai TTS 是一个采用分层Transformer架构的流式文本转语音模型。其主要技术特点包括低延迟的音频生成能力、通过CFG蒸馏实现的高性能,以及对声音克隆进行限制的安全策略。该模型支持英法双语,并以开源形式发布。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat