QW

Qwen-TTS

Qwen-TTS

发布时间: 2025-06-27850
模型参数
未披露
上下文长度
8K
中文支持
支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
8K tokens
最大输出长度
7680 tokens
模型类型
语音大模型
发布时间
2025-06-27
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
0.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本1.6 元10 元

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

在2025年5月,阿里通过 Qwen API 正式发布了最新版本的 Qwen‑TTS(代号 qwen‑tts‑2025‑05‑22)。该模型基于数百万小时的多语种语音数据进行训练,能够在多项主流评测基准上达到接近人类的自然度和表现力。Qwen‑TTS 能够根据输入文本内容自动调整韵律(prosody)、语速和情感色彩,从而输出更具表现力和自然感的语音。


核心特性

  • 大规模训练:利用海量多语种、多风格的语音文本对进行预训练,确保模型对不同语言、不同场景的鲁棒性。
  • 动态韵律控制:可根据文本中的标点、语义结构自动优化断句与语调。
  • 情感与风格注入:支持在合成时加入适度的情感参数(如期待、惊讶、平静等)和演讲风格(如播报、对话、故事叙述等)。
  • 可扩展性:模型架构模块化设计,便于后续新增语种、风格或定制化声音。

支持语种与声音选项

截至目前,Qwen‑TTS 已发布包括中英双语在内的 7 个标准合成声音:

  • Cherry(中英双语,女声)
  • Ethan(中英双语,男声)
  • Chelsie(中英双语,女声)
  • Serena(中英双语,女声)
  • Dylan(北京话口音,男声)
  • Jada(上海话口音,女声)
  • Sunny(四川话口音,女声)

更多语种(如日语、韩语、法语等)和个性化风格选项预计将在近期开启公测。


评测指标

在 SeedTTS‑Eval 基准测试中,Qwen‑TTS 各声线均展现出极低的词错误率(WER)和较高的语音相似度(SIM),评测结果如下:

SpeakerWER (↓)SIM (↑)
zhenhardzhenhard
Chelsie1.2562.0046.1710.6580.4730.662
Serena1.4952.2067.3940.8040.5080.803
Ethan1.4891.9696.7540.7770.5580.779
Cherry1.2091.9676.0690.7990.6640.801

上述结果表明,Qwen‑TTS 在多种测试场景下均可达到接近人类的合成质量。


Qwen‑TTS 作为阿里最新发布的语音合成大模型,凭借大规模数据训练和先进的模型架构,实现了高度自然、富有表现力的语音输出。目前模型暂未开源,但已通过 API 形式向合作伙伴提供服务。未来,阿里计划进一步扩展更多语种与风格,并优化小语种及特殊场景下的合成效果,以满足更广泛的应用需求。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码