阿里通义千问团队首次开源语音合成大模型：Qwen3-TTS：总共5个模型，最小的仅0.6B参数规模，最大1.8B参数

加载中...

阿里通义千问团队首次开源语音合成大模型：Qwen3-TTS：总共5个模型，最小的仅0.6B参数规模，最大1.8B参数 | DataLearnerAI

模型名称	参数规模	主要描述/功能
Qwen3-TTS-12Hz-1.7B-VoiceDesign	1.7B	基于用户描述进行语音设计，支持指令控制和流式生成。
Qwen3-TTS-12Hz-1.7B-CustomVoice	1.7B	通过用户指令控制目标音色，支持9种优质音色（覆盖性别、年龄、语言和方言组合），支持指令控制和流式生成。
Qwen3-TTS-12Hz-1.7B-Base	1.7B	基础模型，支持3秒快速语音克隆，可用于微调其他模型，支持流式生成。
Qwen3-TTS-12Hz-0.6B-CustomVoice	0.6B	支持9种优质音色（覆盖性别、年龄、语言和方言组合），支持流式生成。
Qwen3-TTS-12Hz-0.6B-Base	0.6B	基础模型，支持3秒快速语音克隆，可用于微调其他模型，支持流式生成。

Qwen3-TTS模型概览