Qwen-TTS
发布时间: 2025-06-27 74
不支持
8K tokens
7680 tokens
语音大模型
2025-06-27
输入支持
输入不支持
输入不支持
输入不支持
输入不支持
输出支持
输出不支持
输出不支持
输出不支持
输出不支持
在2025年5月,阿里通过 Qwen API 正式发布了最新版本的 Qwen‑TTS(代号 qwen‑tts‑2025‑05‑22
)。该模型基于数百万小时的多语种语音数据进行训练,能够在多项主流评测基准上达到接近人类的自然度和表现力。Qwen‑TTS 能够根据输入文本内容自动调整韵律(prosody)、语速和情感色彩,从而输出更具表现力和自然感的语音。
核心特性
支持语种与声音选项
截至目前,Qwen‑TTS 已发布包括中英双语在内的 7 个标准合成声音:
更多语种(如日语、韩语、法语等)和个性化风格选项预计将在近期开启公测。
评测指标
在 SeedTTS‑Eval 基准测试中,Qwen‑TTS 各声线均展现出极低的词错误率(WER)和较高的语音相似度(SIM),评测结果如下:
Speaker | WER (↓) | SIM (↑) | ||||
---|---|---|---|---|---|---|
zh | en | hard | zh | en | hard | |
Chelsie | 1.256 | 2.004 | 6.171 | 0.658 | 0.473 | 0.662 |
Serena | 1.495 | 2.206 | 7.394 | 0.804 | 0.508 | 0.803 |
Ethan | 1.489 | 1.969 | 6.754 | 0.777 | 0.558 | 0.779 |
Cherry | 1.209 | 1.967 | 6.069 | 0.799 | 0.664 | 0.801 |
上述结果表明,Qwen‑TTS 在多种测试场景下均可达到接近人类的合成质量。
Qwen‑TTS 作为阿里最新发布的语音合成大模型,凭借大规模数据训练和先进的模型架构,实现了高度自然、富有表现力的语音输出。目前模型暂未开源,但已通过 API 形式向合作伙伴提供服务。未来,阿里计划进一步扩展更多语种与风格,并优化小语种及特殊场景下的合成效果,以满足更广泛的应用需求。
关注DataLearnerAI微信公众号,接受最新大模型资讯