DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表Qwen3-ASR-Flash
QW

Qwen3-ASR-Flash

语音大模型

Qwen3-ASR-Flash

发布时间: 2025-09-08更新于: 2025-09-09 03:12:411,321
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
10K (10240)
中文支持
支持
推理能力

Qwen3-ASR-Flash 是由 阿里巴巴 发布的 AI 模型,发布时间为 2025-09-08,定位为 语音大模型,上下文长度为 10K,采用 不开源 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Qwen3-ASR-Flash

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
10K (10240) tokens
最大输出长度
暂无数据
模型类型
语音大模型
发布时间
2025-09-08
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
暂无数据 / 不涉及
知识截止
暂无数据
Qwen3-ASR-Flash

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
Qwen3-ASR-Flash

官方介绍与博客

官方论文
Qwen3 ASR: Hear clearly, transcribe smartly.
DataLearnerAI博客
Qwen3家族新成员:阿里发布自动语音识别大模型Qwen3-ASR-Flash,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!
Qwen3-ASR-Flash

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
音频$0.00192--
Qwen3-ASR-Flash

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

Qwen3-ASR-Flash

发布机构

阿里巴巴
阿里巴巴
查看发布机构详情
Qwen3-ASR-Flash

模型解读

关于Qwen3-ASR-Flash模型更详细的介绍,参考DataLearnerAI的博客: 原创AI博客 大模型技术资讯 大模型评测排行  AI大模型大全  大模型对比工具 大模型评测基准 AI Agents列表 AI资源仓库  AI工具导航  Qwen3家族新成员:阿里发布自动语音识别大模型Qwen3-ASR-Flash,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro! 


2025年9月8日,Qwen 团队发布了 Qwen3-ASR-Flash,这是一款基于 Qwen3-Omni 能力以及数千万小时多模态语音识别数据训练的语音识别服务。该模型旨在提供多语言、多场景下的稳定识别能力,同时支持上下文定制和特殊语音场景的处理。


模型定位与基础能力

Qwen3-ASR-Flash 面向语音识别应用场景,覆盖实时转写、语音辅助输入、多语言交流等需求。其核心能力体现在以下几个方面:

  • 多语言支持:支持 11 种语言,包括中文(普通话及四川话、闽南语、吴语、粤语等主要方言)、英语(英式、美式及其他口音)、以及法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。
  • 多口音兼容:在方言和口音差异明显的语音中保持较高的识别准确度。
  • 噪声鲁棒性:在复杂声学环境(如车内噪声、背景音乐干扰)下依旧能够完成识别。

关键功能

1. 上下文定制化识别

用户可通过输入不同格式的背景文本(关键词列表、段落文本或二者结合)对识别结果进行偏置,从而获得更贴近实际需求的转写结果。这一功能不依赖额外的预处理流程,且在提供无关甚至无意义文本时,也不会对基础识别性能造成显著影响。

2. 歌声识别

Qwen3-ASR-Flash 针对歌唱场景进行了优化,能够在有背景音乐的情况下转写歌词内容。

3. 语言识别与非语音过滤

模型具备语言自动识别功能,可准确区分 11 种支持语言。同时,它能够排除非语音片段,如环境噪音、背景声和静音段落。

4. 持续优化

作为 API 服务,Qwen3-ASR-Flash 将通过持续更新来提升整体识别准确性,并逐步扩展或优化功能模块。


应用示例

官方提供了一系列不同场景下的演示用例,涵盖噪声环境、电竞解说、英语说唱、车载语音、多语种混合对话以及专业课程内容。这些示例展示了模型在多样化输入条件下的适应能力。


总结

Qwen3-ASR-Flash 是一款面向多语言和多场景的语音识别服务。它在传统语音转写的基础上,进一步支持上下文定制化输入和特殊语音类型(如歌声)的识别,提升了在复杂环境中的适用性。作为持续更新的 API 服务,Qwen3-ASR-Flash 将伴随语音识别需求的增长而不断迭代。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码