Qwen3-TTS 1.7B

Name: Qwen3-TTS-12Hz-1.7B-CustomVoice
Author: 阿里巴巴

语音大模型Qwen3

Qwen3-TTS-12Hz-1.7B-CustomVoice

发布时间: 2026-01-22更新于: 2026-01-25 10:19:43778

在线体验 GitHub Hugging Face Compare

模型参数

17亿

上下文长度

中文支持

支持

推理能力

Qwen3-TTS-12Hz-1.7B-CustomVoice 是由阿里巴巴发布的 AI 模型，发布时间为 2026-01-22，定位为语音大模型，参数规模约为 17亿，上下文长度为 8K，模型文件大小约 3.4GB，采用 Apache 2.0 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Qwen3-TTS 1.7B

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

8K tokens

最大输出长度

4K tokens

模型类型

语音大模型

输入/输出模态

文本 → 音频

发布时间

2026-01-22

模型文件大小

3.4GB

MoE架构

否

总参数 / 激活参数

17亿 / 不涉及

知识截止

暂无数据

Qwen3-TTS 1.7B

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

https://github.com/QwenLM/Qwen

Hugging Face

https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice

在线体验

https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo

Qwen3-TTS 1.7B

官方介绍与博客

官方论文

Qwen3-TTS Family is Now Open Sourced: Voice Design, Clone, and Generation!

DataLearnerAI博客

https://www.datalearner.com/blog/1051769091773677

Qwen3-TTS 1.7B

API接口信息

接口速度

5/5

暂无公开的 API 定价信息。

Qwen3-TTS 1.7B

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Qwen3-TTS 1.7B

发布机构

阿里巴巴

查看发布机构详情

Qwen3-TTS-12Hz-1.7B-CustomVoice

模型解读

1. Qwen3-TTS 简介与核心特点

Qwen3-TTS 是阿里云 Qwen 团队于 2026 年 1 月正式开源的最新一代语音合成（TTS）模型系列。作为 Qwen3 大家族的一员，该模型旨在解决高质量、高自然度以及零样本语音克隆（Zero-Shot Voice Cloning）的难题。其核心特点在于采用了 12Hz 的离散语音 token 流（Discrete Speech Token stream），在保证极低延迟的同时，实现了对语音韵律、情感和音色的精细控制。该模型支持“语音设计”（Voice Design）和“语音克隆”（Voice Cloning）两大核心功能，能够通过自然语言指令调整生成语音的风格。

2. 架构与技术规格

模型参数：17亿（1.7B）。
架构特点：基于 Transformer 的解码器架构，专门针对音频生成进行了优化。模型引入了“Flash”技术（Qwen3-TTS-Flash），显著提升了推理速度，支持实时流式输出。核心创新在于其 12Hz 的高压缩率 codec，使得模型在长文本生成中保持极高的稳定性（Stability），大幅减少了传统 TTS 模型中常见的丢字、重复或发音错误现象。
训练数据：基于万亿级 token 的多语言文本与高质量音频配对数据训练，涵盖了中文、英文、法文、日文等多种主流语言。

3. 核心能力与支持模态

模态支持：支持文本输入，音频输出（Text-to-Speech）。
能力详述：

4. 性能与基准评测

根据官方技术报告，Qwen3-TTS 在多项公开基准测试中刷新了 SOTA 成绩。特别是在“长文本稳定性”测试中，其错误率（WER/CER）显著低于同类竞品（如 CosyVoice 1.0 和其他开源 TTS 模型）。其 12Hz 的 token 频率设计使其在推理速度上比传统自回归模型快数倍，极大地降低了部署成本。

5. 应用场景与限制

推荐用例：实时语音助手、有声读物生成、视频配音、游戏角色语音生成。
已知局限：尽管支持多语言，但在部分极低资源语言上的发音准确性仍有提升空间；在极度嘈杂背景下的语音克隆效果可能会受到影响。

6. 访问方式与许可

模型权重已在 Hugging Face 和 ModelScope 平台开源。代码及模型使用遵循 Apache 2.0 许可协议（或 Qwen Research License），允许学术研究及商业用途。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送