Qw

Qwen-TTS

语音大模型

Qwen-TTS

发布时间: 2025-06-27 74

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
8K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

8K tokens

最长输出结果

7680 tokens

模型类型

语音大模型

发布时间

2025-06-27

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
输入价格:
  • 文本: 1.6 元/100 万tokens
  • 图片:
  • 音频:
  • 视频:
  • Embedding:
输出价格:
  • 文本: 10 元/100 万tokens
  • 图片:
  • 音频:
  • 视频:
  • Embedding:

输入支持的模态

文本

输入支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Qwen-TTS模型在各大评测榜单的评分

发布机构

模型介绍

在2025年5月,阿里通过 Qwen API 正式发布了最新版本的 Qwen‑TTS(代号 qwen‑tts‑2025‑05‑22)。该模型基于数百万小时的多语种语音数据进行训练,能够在多项主流评测基准上达到接近人类的自然度和表现力。Qwen‑TTS 能够根据输入文本内容自动调整韵律(prosody)、语速和情感色彩,从而输出更具表现力和自然感的语音。


核心特性

  • 大规模训练:利用海量多语种、多风格的语音文本对进行预训练,确保模型对不同语言、不同场景的鲁棒性。
  • 动态韵律控制:可根据文本中的标点、语义结构自动优化断句与语调。
  • 情感与风格注入:支持在合成时加入适度的情感参数(如期待、惊讶、平静等)和演讲风格(如播报、对话、故事叙述等)。
  • 可扩展性:模型架构模块化设计,便于后续新增语种、风格或定制化声音。

支持语种与声音选项

截至目前,Qwen‑TTS 已发布包括中英双语在内的 7 个标准合成声音:

  • Cherry(中英双语,女声)
  • Ethan(中英双语,男声)
  • Chelsie(中英双语,女声)
  • Serena(中英双语,女声)
  • Dylan(北京话口音,男声)
  • Jada(上海话口音,女声)
  • Sunny(四川话口音,女声)

更多语种(如日语、韩语、法语等)和个性化风格选项预计将在近期开启公测。


评测指标

在 SeedTTS‑Eval 基准测试中,Qwen‑TTS 各声线均展现出极低的词错误率(WER)和较高的语音相似度(SIM),评测结果如下:

SpeakerWER (↓)SIM (↑)
zhenhardzhenhard
Chelsie1.2562.0046.1710.6580.4730.662
Serena1.4952.2067.3940.8040.5080.803
Ethan1.4891.9696.7540.7770.5580.779
Cherry1.2091.9676.0690.7990.6640.801

上述结果表明,Qwen‑TTS 在多种测试场景下均可达到接近人类的合成质量。


Qwen‑TTS 作为阿里最新发布的语音合成大模型,凭借大规模数据训练和先进的模型架构,实现了高度自然、富有表现力的语音输出。目前模型暂未开源,但已通过 API 形式向合作伙伴提供服务。未来,阿里计划进一步扩展更多语种与风格,并优化小语种及特殊场景下的合成效果,以满足更广泛的应用需求。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat