阿里一次发布3款Qwen大模型:开源的全模态Qwen3-Omni和图像编辑大模型Qwen-Image-Edit-2509和不开源的语音识别大模型Qwen3-TTS
- 几个小时前,阿里一次更新了3个大模型,分别是开源的全模态大模型Qwen3-Omni、开源的图像编辑大模型Qwen3-Image-Edit和不开源的语音识别大模型Qwen3-TTS。本次发布的3个模型均为多模态大模型,可以说阿里的大模型真的是全面开花,节奏很快!

免费可商用的全模态大模型:Qwen3-Omini-30B-A3B
Qwen3-Omini-30B-A3B是阿里开源全模态大模型,所谓的全模态是指该模型可以处理文本、图片、语音和视频四种不同类型的数据,同时可以返回文本或者语音。
阿里上个版本的全模态大模型Qwen2.5-Omni是半年前发布的,是一个稠密的70亿参数规模的模型。本次阿里开源的是MoE架构的全模态大模型,总参数300亿,每次推理激活其中的30亿。
根据阿里Qwen团队的负责人Junyang Lin的描述。今年,阿里的语音团队花了很大的代价构建了大规模高质量的语音数据集,进而提升了阿里ASR、TTS模型的质量。然后,阿里将这些能力组合起来形成了这个全模态大模型。该模型是基于阿里7月升级之后的Qwen3模型打造,分为不带推理模式的版本和带推理模式的版本。
根据阿里官方的介绍,与Qwen2.5-Omni、GPT-4o和Gemini-2.5-Flash相比,Qwen3-Omini-30B-A3B在36个语音和语音多模态(Audio-Visual)上获得22个第一!十分强悍!


