Qwen3-TTS-12Hz-1.7B-CustomVoice
Qwen3-TTS-12Hz-1.7B-CustomVoice is an AI model published by 阿里巴巴, released on 2026-01-22, for 语音大模型, with 17.0B parameters, and 8K tokens context length, requiring about 3.4GB storage, under the Apache 2.0 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
Qwen3-TTS 是阿里云 Qwen 团队于 2026 年 1 月正式开源的最新一代语音合成(TTS)模型系列。作为 Qwen3 大家族的一员,该模型旨在解决高质量、高自然度以及零样本语音克隆(Zero-Shot Voice Cloning)的难题。其核心特点在于采用了 12Hz 的离散语音 token 流(Discrete Speech Token stream),在保证极低延迟的同时,实现了对语音韵律、情感和音色的精细控制。该模型支持“语音设计”(Voice Design)和“语音克隆”(Voice Cloning)两大核心功能,能够通过自然语言指令调整生成语音的风格。
根据官方技术报告,Qwen3-TTS 在多项公开基准测试中刷新了 SOTA 成绩。特别是在“长文本稳定性”测试中,其错误率(WER/CER)显著低于同类竞品(如 CosyVoice 1.0 和其他开源 TTS 模型)。其 12Hz 的 token 频率设计使其在推理速度上比传统自回归模型快数倍,极大地降低了部署成本。
模型权重已在 Hugging Face 和 ModelScope 平台开源。代码及模型使用遵循 Apache 2.0 许可协议(或 Qwen Research License),允许学术研究及商业用途。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

| Modality | Input | Output |
|---|---|---|
| Audio | -- | 0 |