加载中...
加载中...
Qwen3-TTS-12Hz-0.6B-Base
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 模态 | 输入 | 输出 |
|---|---|---|
| 音频 | -- | 0 |
Qwen3-TTS 0.6B 是阿里云 Qwen 团队发布的 Qwen3-TTS 系列中的轻量化版本。该模型专为端侧部署和低算力环境设计,在保持了系列核心的 12Hz 离散 token 流技术特性的同时,大幅压缩了参数规模。它旨在提供极致的推理速度和极低的资源占用,同时维持高可用的语音合成质量。
在轻量级 TTS 模型基准测试中,Qwen3-TTS 0.6B 在推理延迟(Latency)和实时率(RTF)指标上表现优异,优于同参数量级的其他开源模型。虽然在复杂的语音克隆任务上略逊于 1.7B 版本,但在标准朗读任务中,其 MOS 分数非常接近教师模型。
模型权重已在 Hugging Face 开源,代码及模型使用遵循 Apache 2.0 许可协议,适合开发者集成到各类终端应用中。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
