Qwen3-ASR-Flash
不支持
10K tokens
语音大模型
2025-09-08
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 音频 | 0.00192 美元/分钟 |
关于Qwen3-ASR-Flash模型更详细的介绍,参考DataLearnerAI的博客: 原创AI博客 大模型技术资讯 大模型评测排行 AI大模型大全 大模型对比工具 大模型评测基准 AI Agents列表 AI资源仓库 AI工具导航 Qwen3家族新成员:阿里发布自动语音识别大模型Qwen3-ASR-Flash,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!
2025年9月8日,Qwen 团队发布了 Qwen3-ASR-Flash,这是一款基于 Qwen3-Omni 能力以及数千万小时多模态语音识别数据训练的语音识别服务。该模型旨在提供多语言、多场景下的稳定识别能力,同时支持上下文定制和特殊语音场景的处理。
Qwen3-ASR-Flash 面向语音识别应用场景,覆盖实时转写、语音辅助输入、多语言交流等需求。其核心能力体现在以下几个方面:
用户可通过输入不同格式的背景文本(关键词列表、段落文本或二者结合)对识别结果进行偏置,从而获得更贴近实际需求的转写结果。这一功能不依赖额外的预处理流程,且在提供无关甚至无意义文本时,也不会对基础识别性能造成显著影响。
Qwen3-ASR-Flash 针对歌唱场景进行了优化,能够在有背景音乐的情况下转写歌词内容。
模型具备语言自动识别功能,可准确区分 11 种支持语言。同时,它能够排除非语音片段,如环境噪音、背景声和静音段落。
作为 API 服务,Qwen3-ASR-Flash 将通过持续更新来提升整体识别准确性,并逐步扩展或优化功能模块。
官方提供了一系列不同场景下的演示用例,涵盖噪声环境、电竞解说、英语说唱、车载语音、多语种混合对话以及专业课程内容。这些示例展示了模型在多样化输入条件下的适应能力。
Qwen3-ASR-Flash 是一款面向多语言和多场景的语音识别服务。它在传统语音转写的基础上,进一步支持上下文定制化输入和特殊语音类型(如歌声)的识别,提升了在复杂环境中的适用性。作为持续更新的 API 服务,Qwen3-ASR-Flash 将伴随语音识别需求的增长而不断迭代。
关注DataLearnerAI微信公众号,接受最新大模型资讯