TTS-1.6b-en_fr

Name: TTS-1.6b-en_fr
Author: 个人

语音大模型

TTS-1.6b-en_fr

发布时间: 2025-07-03更新于: 2025-07-04 15:03:36628

在线体验 GitHub Hugging Face Compare

模型参数

16亿

上下文长度

中文支持

不支持

推理能力

TTS-1.6b-en_fr 是由个人发布的 AI 模型，发布时间为 2025-07-03，定位为语音大模型，参数规模约为 16亿，上下文长度为 4K，模型文件大小约 3.68GB，采用 CC BY-SA-4.0 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

TTS-1.6b-en_fr

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

4K tokens

最大输出长度

暂无数据

模型类型

语音大模型

输入/输出模态

文本 → 音频

发布时间

2025-07-03

模型文件大小

3.68GB

MoE架构

否

总参数 / 激活参数

16亿 / 不涉及

知识截止

暂无数据

TTS-1.6b-en_fr

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

CC BY-SA-4.0- 免费商用授权

GitHub 源码

https://github.com/kyutai-labs/delayed-streams-modeling

Hugging Face

https://huggingface.co/kyutai/tts-1.6b-en_fr

在线体验

https://unmute.sh/

TTS-1.6b-en_fr

官方介绍与博客

官方论文

Kyutai TTS: A text-to-speech optimized for real-time usage.

DataLearnerAI博客

暂无介绍博客

TTS-1.6b-en_fr

API接口信息

接口速度

4/5

暂无公开的 API 定价信息。

TTS-1.6b-en_fr

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

TTS-1.6b-en_fr

发布机构

个人

查看发布机构详情

TTS-1.6b-en_fr

模型解读

Kyutai TTS 是由研究机构 Kyutai 开发的一款开源流式文本转语音（Streaming Text-to-Speech）模型。其模型权重基于 CC-BY 4.0 许可证发布，旨在为开发者和研究者提供一个高性能的语音合成工具。

核心定义：流式语音合成

该模型的核心特性是“流式”处理。与需要接收完整文本才能生成音频的离线（Offline）模型不同，Kyutai TTS 在获得输入文本的最初几个词后，即可开始生成并输出对应的音频流。这种即时响应的机制，使其适用于需要低延迟交互的应用场景。

模型架构与技术细节

Kyutai TTS 的技术基础是一个分层 Transformer（Hierarchical Transformer）架构，它属于一个仅解码器（Decoder-only）模型。

基本原理：模型直接处理 token化的文本，并生成由 Mimi 编码器（源自Moshi论文）token化的音频。
音频参数：音频帧率为 12.5 Hz，每个音频帧由 32 个音频token构成。在推理（inference）时，可以通过减少每帧的token数量来提升生成速度。
模型规模：骨干模型参数量为10亿，深度Transformer部分为6亿参数，并采用了类似于Hibiki模型的部分权重共享技术。
流式实现：为实现流式输出，音频流在设计上相对于文本流延迟了16个步长（相当于1.28秒），同时模型采用了2个单位的声学/语义延迟。

功能与性能

支持语言：模型目前支持英语和法语。
语音定制：支持通过交叉注意力机制加载预计算的声音嵌入（voice embeddings），从而实现对生成语音音色的控制。Kyutai 在其 tts-voices 仓库中提供了一系列预设声音。
性能优化：模型训练中采用了分类器无关指导蒸馏（CFG distillation）技术。这使得模型在推理时无需进行两次前向传播即可达到高质量输出，从而提升了运行效率。该模型易于进行批处理，其吞吐量可达到每单位计算时间生成75倍时长的音频。

安全与限制

该模型未集成音频水印功能。开发团队指出，对于开源模型，水印容易被移除；同时，实验表明现有水印系统在经过Mimi等编解码后会失效。

作为替代方案，模型通过限制声音克隆能力来防范滥用。用户只能使用官方提供的预计算声音嵌入，而不能随意克隆任意声音。

训练详情

训练数据：模型在一个包含250万小时公开音频的数据集上进行预训练。该数据集的文本稿由 whisper-medium 模型结合 whisper-timestamped 工具合成。
训练过程：模型首先在32块 NVIDIA H100 GPU上进行了75万步的训练（批大小为64，片段时长120秒），随后在8块同型号GPU上执行了2.4万步的CFG蒸馏。

总结

Kyutai TTS 是一个采用分层Transformer架构的流式文本转语音模型。其主要技术特点包括低延迟的音频生成能力、通过CFG蒸馏实现的高性能，以及对声音克隆进行限制的安全策略。该模型支持英法双语，并以开源形式发布。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送