加载中...
加载中...
Qwen3-TTS-12Hz-1.7B-CustomVoice
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 模态 | 输入 | 输出 |
|---|---|---|
| 音频 | -- | 0 |
Qwen3-TTS 是阿里云 Qwen 团队于 2026 年 1 月正式开源的最新一代语音合成(TTS)模型系列。作为 Qwen3 大家族的一员,该模型旨在解决高质量、高自然度以及零样本语音克隆(Zero-Shot Voice Cloning)的难题。其核心特点在于采用了 12Hz 的离散语音 token 流(Discrete Speech Token stream),在保证极低延迟的同时,实现了对语音韵律、情感和音色的精细控制。该模型支持“语音设计”(Voice Design)和“语音克隆”(Voice Cloning)两大核心功能,能够通过自然语言指令调整生成语音的风格。
根据官方技术报告,Qwen3-TTS 在多项公开基准测试中刷新了 SOTA 成绩。特别是在“长文本稳定性”测试中,其错误率(WER/CER)显著低于同类竞品(如 CosyVoice 1.0 和其他开源 TTS 模型)。其 12Hz 的 token 频率设计使其在推理速度上比传统自回归模型快数倍,极大地降低了部署成本。
模型权重已在 Hugging Face 和 ModelScope 平台开源。代码及模型使用遵循 Apache 2.0 许可协议(或 Qwen Research License),允许学术研究及商业用途。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
