Qw

Qwen3-ASR-Flash

语音大模型

Qwen3-ASR-Flash

发布时间: 2025-09-08

805
模型参数(Parameters)
未披露
最高上下文长度(Context Length)
10K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

10K tokens

最长输出结果
暂无数据
模型类型

语音大模型

发布时间

2025-09-08

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
音频 0.00192 美元/分钟 --

Qwen3-ASR-Flash模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

Qwen3-ASR-Flash模型解读

关于Qwen3-ASR-Flash模型更详细的介绍,参考DataLearnerAI的博客: 原创AI博客 大模型技术资讯 大模型评测排行  AI大模型大全  大模型对比工具 大模型评测基准 AI Agents列表 AI资源仓库  AI工具导航  Qwen3家族新成员:阿里发布自动语音识别大模型Qwen3-ASR-Flash,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro! 


2025年9月8日,Qwen 团队发布了 Qwen3-ASR-Flash,这是一款基于 Qwen3-Omni 能力以及数千万小时多模态语音识别数据训练的语音识别服务。该模型旨在提供多语言、多场景下的稳定识别能力,同时支持上下文定制和特殊语音场景的处理。


模型定位与基础能力

Qwen3-ASR-Flash 面向语音识别应用场景,覆盖实时转写、语音辅助输入、多语言交流等需求。其核心能力体现在以下几个方面:

  • 多语言支持:支持 11 种语言,包括中文(普通话及四川话、闽南语、吴语、粤语等主要方言)、英语(英式、美式及其他口音)、以及法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。
  • 多口音兼容:在方言和口音差异明显的语音中保持较高的识别准确度。
  • 噪声鲁棒性:在复杂声学环境(如车内噪声、背景音乐干扰)下依旧能够完成识别。

关键功能

1. 上下文定制化识别

用户可通过输入不同格式的背景文本(关键词列表、段落文本或二者结合)对识别结果进行偏置,从而获得更贴近实际需求的转写结果。这一功能不依赖额外的预处理流程,且在提供无关甚至无意义文本时,也不会对基础识别性能造成显著影响。

2. 歌声识别

Qwen3-ASR-Flash 针对歌唱场景进行了优化,能够在有背景音乐的情况下转写歌词内容。

3. 语言识别与非语音过滤

模型具备语言自动识别功能,可准确区分 11 种支持语言。同时,它能够排除非语音片段,如环境噪音、背景声和静音段落。

4. 持续优化

作为 API 服务,Qwen3-ASR-Flash 将通过持续更新来提升整体识别准确性,并逐步扩展或优化功能模块。


应用示例

官方提供了一系列不同场景下的演示用例,涵盖噪声环境、电竞解说、英语说唱、车载语音、多语种混合对话以及专业课程内容。这些示例展示了模型在多样化输入条件下的适应能力。


总结

Qwen3-ASR-Flash 是一款面向多语言和多场景的语音识别服务。它在传统语音转写的基础上,进一步支持上下文定制化输入和特殊语音类型(如歌声)的识别,提升了在复杂环境中的适用性。作为持续更新的 API 服务,Qwen3-ASR-Flash 将伴随语音识别需求的增长而不断迭代。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat