DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表Qwen3-TTS 0.6B
QW

Qwen3-TTS 0.6B

语音大模型Qwen3

Qwen3-TTS-12Hz-0.6B-Base

发布时间: 2026-01-15更新于: 2026-01-22 22:19:30467
在线体验GitHubHugging FaceCompare
模型参数
6亿
上下文长度
4K
中文支持
支持
推理能力

Qwen3-TTS-12Hz-0.6B-Base 是由 阿里巴巴 发布的 AI 模型,发布时间为 2026-01-15,定位为 语音大模型,上下文长度为 4K,模型文件大小约 1.2GB,采用 Apache 2.0 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Qwen3-TTS 0.6B

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
4K tokens
最大输出长度
2K tokens
模型类型
语音大模型
发布时间
2026-01-15
模型文件大小
1.2GB
MoE架构
否
总参数 / 激活参数
6亿 / 不涉及
知识截止
暂无数据
Qwen3-TTS 0.6B

开源和体验地址

代码开源状态
Apache 2.0
预训练权重开源
Apache 2.0- 免费商用授权
GitHub 源码
https://github.com/QwenLM/Qwen
Hugging Face
https://huggingface.co/Qwen/Qwen3-TTS-12Hz-0.6B-Base
在线体验
https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo
Qwen3-TTS 0.6B

官方介绍与博客

官方论文
暂无官方论文
DataLearnerAI博客
暂无介绍博客
Qwen3-TTS 0.6B

API接口信息

接口速度
5/5
暂无公开的 API 定价信息。
Qwen3-TTS 0.6B

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

Qwen3-TTS 0.6B

发布机构

阿里巴巴
阿里巴巴
查看发布机构详情
Qwen3-TTS-12Hz-0.6B-Base

模型解读

1. Qwen3-TTS 0.6B 简介与核心特点

Qwen3-TTS 0.6B 是阿里云 Qwen 团队发布的 Qwen3-TTS 系列中的轻量化版本。该模型专为端侧部署和低算力环境设计,在保持了系列核心的 12Hz 离散 token 流技术特性的同时,大幅压缩了参数规模。它旨在提供极致的推理速度和极低的资源占用,同时维持高可用的语音合成质量。

2. 架构与技术规格

  • 模型参数:6亿(0.6B)。
  • 架构特点:采用轻量化的 Transformer 结构,针对移动端和边缘计算设备进行了算子优化。尽管参数量较小,但得益于 Qwen3 系列的高效 tokenizer 和 12Hz 的设计,该模型依然具备流式生成能力。
  • 训练数据:与 1.7B 版本共享大规模多语言高质量音频-文本对齐数据,通过蒸馏等技术保留了基础模型的语言理解能力。

3. 核心能力与支持模态

  • 模态支持:文本输入,音频输出(Text-to-Speech)。
  • 能力详述:
    • 极速合成:在消费级 CPU 或低端 GPU 上即可实现超实时的语音合成速度。
    • 基础多语言:支持中文和英文的标准语音合成,发音清晰自然。
    • 稳定性:在短文本和对话场景下表现出色的稳定性。

4. 性能与基准评测

在轻量级 TTS 模型基准测试中,Qwen3-TTS 0.6B 在推理延迟(Latency)和实时率(RTF)指标上表现优异,优于同参数量级的其他开源模型。虽然在复杂的语音克隆任务上略逊于 1.7B 版本,但在标准朗读任务中,其 MOS 分数非常接近教师模型。

5. 应用场景与限制

  • 推荐用例:移动应用内置语音助手、IoT 设备语音交互、低延迟即时通讯语音生成。
  • 已知局限:由于参数量限制,其零样本声音克隆的相似度和对极长复杂文本的韵律把控不如 1.7B 版本精细。

6. 访问方式与许可

模型权重已在 Hugging Face 开源,代码及模型使用遵循 Apache 2.0 许可协议,适合开发者集成到各类终端应用中。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码