Qwen3-TTS-12Hz-0.6B-Base
Qwen3-TTS-12Hz-0.6B-Base is an AI model published by 阿里巴巴, released on 2026-01-15, for 语音大模型, with 6.0B parameters, and 4K tokens context length, requiring about 1.2GB storage, under the Apache 2.0 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
| Modality | Input | Output |
|---|---|---|
| Audio | -- | 0 |
Qwen3-TTS 0.6B 是阿里云 Qwen 团队发布的 Qwen3-TTS 系列中的轻量化版本。该模型专为端侧部署和低算力环境设计,在保持了系列核心的 12Hz 离散 token 流技术特性的同时,大幅压缩了参数规模。它旨在提供极致的推理速度和极低的资源占用,同时维持高可用的语音合成质量。
在轻量级 TTS 模型基准测试中,Qwen3-TTS 0.6B 在推理延迟(Latency)和实时率(RTF)指标上表现优异,优于同参数量级的其他开源模型。虽然在复杂的语音克隆任务上略逊于 1.7B 版本,但在标准朗读任务中,其 MOS 分数非常接近教师模型。
模型权重已在 Hugging Face 开源,代码及模型使用遵循 Apache 2.0 许可协议,适合开发者集成到各类终端应用中。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
