阿里通义千问团队首次开源语音合成大模型:Qwen3-TTS:总共5个模型,最小的仅0.6B参数规模,最大1.8B参数
就在刚刚,阿里开源了全新的语音合成大模型Qwen3-TTS系列!本次开源的语音合成模型共5个版本,最小的仅0.6B参数规模,最大的模型参数也就1.7B,基本上手机端都可以运行。此次发布不仅在性能上宣称超越了许多商业级闭源模型(如 OpenAI 的 GPT-4o-Audio 和 ElevenLabs),更重要的这应该是阿里通义千问团队首次开源语音合成系列大模型。

本次发布的 Qwen3-TTS 主要包含两个核心能力方向:语音设计(Voice Design) 和 语音克隆(Voice Cloning),旨在解决传统 TTS 模型在情感表达、个性化定制和多语言适应性上的痛点。
Qwen3-TTS模型概览
本次开源的Qwen3-TTS系列包括5个模型,但也就2个参数规模,分为1.7B和0.6B两种参数规模。核心技术基于Qwen3-TTS-Tokenizer-12Hz多码本语音编码器,实现高效压缩和高保真语音重建。


