Qwen-TTS
Qwen-TTS
模型参数
未披露
上下文长度
8K
中文支持
支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
8K tokens
最大输出长度
7680 tokens
模型类型
语音大模型
发布时间
2025-06-27
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
0.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
3/5
默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | 1.6 元 | 10 元 |
评测得分
当前尚无可展示的评测数据。
发布机构
阿里巴巴
查看发布机构详情 模型解读
在2025年5月,阿里通过 Qwen API 正式发布了最新版本的 Qwen‑TTS(代号 qwen‑tts‑2025‑05‑22)。该模型基于数百万小时的多语种语音数据进行训练,能够在多项主流评测基准上达到接近人类的自然度和表现力。Qwen‑TTS 能够根据输入文本内容自动调整韵律(prosody)、语速和情感色彩,从而输出更具表现力和自然感的语音。
核心特性
- 大规模训练:利用海量多语种、多风格的语音文本对进行预训练,确保模型对不同语言、不同场景的鲁棒性。
- 动态韵律控制:可根据文本中的标点、语义结构自动优化断句与语调。
- 情感与风格注入:支持在合成时加入适度的情感参数(如期待、惊讶、平静等)和演讲风格(如播报、对话、故事叙述等)。
- 可扩展性:模型架构模块化设计,便于后续新增语种、风格或定制化声音。
支持语种与声音选项
截至目前,Qwen‑TTS 已发布包括中英双语在内的 7 个标准合成声音:
- Cherry(中英双语,女声)
- Ethan(中英双语,男声)
- Chelsie(中英双语,女声)
- Serena(中英双语,女声)
- Dylan(北京话口音,男声)
- Jada(上海话口音,女声)
- Sunny(四川话口音,女声)
更多语种(如日语、韩语、法语等)和个性化风格选项预计将在近期开启公测。
评测指标
在 SeedTTS‑Eval 基准测试中,Qwen‑TTS 各声线均展现出极低的词错误率(WER)和较高的语音相似度(SIM),评测结果如下:
| Speaker | WER (↓) | SIM (↑) | ||||
|---|---|---|---|---|---|---|
| zh | en | hard | zh | en | hard | |
| Chelsie | 1.256 | 2.004 | 6.171 | 0.658 | 0.473 | 0.662 |
| Serena | 1.495 | 2.206 | 7.394 | 0.804 | 0.508 | 0.803 |
| Ethan | 1.489 | 1.969 | 6.754 | 0.777 | 0.558 | 0.779 |
| Cherry | 1.209 | 1.967 | 6.069 | 0.799 | 0.664 | 0.801 |
上述结果表明,Qwen‑TTS 在多种测试场景下均可达到接近人类的合成质量。
Qwen‑TTS 作为阿里最新发布的语音合成大模型,凭借大规模数据训练和先进的模型架构,实现了高度自然、富有表现力的语音输出。目前模型暂未开源,但已通过 API 形式向合作伙伴提供服务。未来,阿里计划进一步扩展更多语种与风格,并优化小语种及特殊场景下的合成效果,以满足更广泛的应用需求。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
