加载中...
加载中...
Qwen3-TTS-12Hz-0.6B-Base
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
| Modality | Input | Output |
|---|---|---|
| Audio | -- | 0 |
Qwen3-TTS 0.6B 是阿里云 Qwen 团队发布的 Qwen3-TTS 系列中的轻量化版本。该模型专为端侧部署和低算力环境设计,在保持了系列核心的 12Hz 离散 token 流技术特性的同时,大幅压缩了参数规模。它旨在提供极致的推理速度和极低的资源占用,同时维持高可用的语音合成质量。
在轻量级 TTS 模型基准测试中,Qwen3-TTS 0.6B 在推理延迟(Latency)和实时率(RTF)指标上表现优异,优于同参数量级的其他开源模型。虽然在复杂的语音克隆任务上略逊于 1.7B 版本,但在标准朗读任务中,其 MOS 分数非常接近教师模型。
模型权重已在 Hugging Face 开源,代码及模型使用遵循 Apache 2.0 许可协议,适合开发者集成到各类终端应用中。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
