TTS-1.6b-en_fr
发布时间: 2025-07-03 12
不支持
4K tokens
语音大模型
2025-07-03
3.68GB
输入支持
输入不支持
输入不支持
输入不支持
输入不支持
输出不支持
输出不支持
输出不支持
输出支持
输出不支持
Kyutai TTS 是由研究机构 Kyutai 开发的一款开源流式文本转语音(Streaming Text-to-Speech)模型。其模型权重基于 CC-BY 4.0 许可证发布,旨在为开发者和研究者提供一个高性能的语音合成工具。
该模型的核心特性是“流式”处理。与需要接收完整文本才能生成音频的离线(Offline)模型不同,Kyutai TTS 在获得输入文本的最初几个词后,即可开始生成并输出对应的音频流。这种即时响应的机制,使其适用于需要低延迟交互的应用场景。
Kyutai TTS 的技术基础是一个分层 Transformer(Hierarchical Transformer)架构,它属于一个仅解码器(Decoder-only)模型。
tts-voices
仓库中提供了一系列预设声音。该模型未集成音频水印功能。开发团队指出,对于开源模型,水印容易被移除;同时,实验表明现有水印系统在经过Mimi等编解码后会失效。
作为替代方案,模型通过限制声音克隆能力来防范滥用。用户只能使用官方提供的预计算声音嵌入,而不能随意克隆任意声音。
Kyutai TTS 是一个采用分层Transformer架构的流式文本转语音模型。其主要技术特点包括低延迟的音频生成能力、通过CFG蒸馏实现的高性能,以及对声音克隆进行限制的安全策略。该模型支持英法双语,并以开源形式发布。
关注DataLearnerAI微信公众号,接受最新大模型资讯