Qwen3-ASR-Flash

Name: Qwen3-ASR-Flash
Author: 阿里巴巴

语音大模型Qwen3

Qwen3-ASR-Flash

发布时间: 2025-09-08更新于: 2025-09-09 03:12:411,362

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

10K

中文支持

支持

推理能力

Qwen3-ASR-Flash 是由阿里巴巴发布的 AI 模型，发布时间为 2025-09-08，定位为语音大模型，上下文长度为 10K，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Qwen3-ASR-Flash

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

10K tokens

最大输出长度

暂无数据

模型类型

语音大模型

输入/输出模态

文本、音频 → 文本

发布时间

2025-09-08

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

Qwen3-ASR-Flash

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

Qwen3-ASR-Flash

官方介绍与博客

官方论文

Qwen3 ASR: Hear clearly, transcribe smartly.

DataLearnerAI博客

Qwen3家族新成员：阿里发布自动语音识别大模型Qwen3-ASR-Flash，中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro！

Qwen3-ASR-Flash

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

Qwen3-ASR-Flash

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Qwen3-ASR-Flash

发布机构

阿里巴巴

查看发布机构详情

Qwen3-ASR-Flash

模型解读

关于Qwen3-ASR-Flash模型更详细的介绍，参考DataLearnerAI的博客： 原创AI博客大模型技术资讯大模型评测排行 AI大模型大全大模型对比工具大模型评测基准 AI Agents列表 AI资源仓库 AI工具导航 Qwen3家族新成员：阿里发布自动语音识别大模型Qwen3-ASR-Flash，中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro！

2025年9月8日，Qwen 团队发布了 Qwen3-ASR-Flash，这是一款基于 Qwen3-Omni 能力以及数千万小时多模态语音识别数据训练的语音识别服务。该模型旨在提供多语言、多场景下的稳定识别能力，同时支持上下文定制和特殊语音场景的处理。

模型定位与基础能力

Qwen3-ASR-Flash 面向语音识别应用场景，覆盖实时转写、语音辅助输入、多语言交流等需求。其核心能力体现在以下几个方面：

多语言支持：支持 11 种语言，包括中文（普通话及四川话、闽南语、吴语、粤语等主要方言）、英语（英式、美式及其他口音）、以及法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。
多口音兼容：在方言和口音差异明显的语音中保持较高的识别准确度。
噪声鲁棒性：在复杂声学环境（如车内噪声、背景音乐干扰）下依旧能够完成识别。

关键功能

1. 上下文定制化识别

用户可通过输入不同格式的背景文本（关键词列表、段落文本或二者结合）对识别结果进行偏置，从而获得更贴近实际需求的转写结果。这一功能不依赖额外的预处理流程，且在提供无关甚至无意义文本时，也不会对基础识别性能造成显著影响。

2. 歌声识别

Qwen3-ASR-Flash 针对歌唱场景进行了优化，能够在有背景音乐的情况下转写歌词内容。

3. 语言识别与非语音过滤

模型具备语言自动识别功能，可准确区分 11 种支持语言。同时，它能够排除非语音片段，如环境噪音、背景声和静音段落。

4. 持续优化

作为 API 服务，Qwen3-ASR-Flash 将通过持续更新来提升整体识别准确性，并逐步扩展或优化功能模块。

应用示例

官方提供了一系列不同场景下的演示用例，涵盖噪声环境、电竞解说、英语说唱、车载语音、多语种混合对话以及专业课程内容。这些示例展示了模型在多样化输入条件下的适应能力。

总结

Qwen3-ASR-Flash 是一款面向多语言和多场景的语音识别服务。它在传统语音转写的基础上，进一步支持上下文定制化输入和特殊语音类型（如歌声）的识别，提升了在复杂环境中的适用性。作为持续更新的 API 服务，Qwen3-ASR-Flash 将伴随语音识别需求的增长而不断迭代。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送