DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

阿里开源全模态大模型Qwen2.5-Omni-7B:支持文本、语音、视频、图像任意模态输入,可以实时生成文本或者语音,文本理解能力接近GPT-4o-mini,开源且免费商用

2025/03/27 08:18:05
1,254 阅读
Qwen2.5-Omni-7B多模态大模型实时交互

Qwen2.5-Omni-7B是阿里巴巴发布的一款端到端全模态大模型,支持文本、图像、音频、视频(无音频轨)的多模态输入与实时生成能力,可同步输出文本与自然语音的流式响应。目前,该模型在HuggingFace以Apache2.0协议开源,可以免费商用授权。

Qwen2.5-Omni-7B大模型介绍
Qwen2.5-Omni-7B大模型介绍
  • Qwen2.5-Omni-7B模型特点
  • Qwen2.5-Omni-7B模型架构
  • Qwen2.5-Omni-7B模型的评测效果
  • Qwen2.5-Omni-7B模型总结

Qwen2.5-Omni-7B模型特点

Qwen2.5-Omni-7B模型最大的特点是端到端统一架构的多模态大模型,支持实时的语音和视频交互。

也就是说,你可以通过语音或者视频直接和它对话,而Qwen2.5-Omni-7B模型也可以实时输出文本和语音(流式输出)。需要注意的是,尽管Qwen2.5-Omni-7B支持文本、视频、语音和图片作为输入,输出的模态则仅支持文本和语音(视频对话输出似乎也没有必要)。

此外,这个模型只有70亿参数规模(应该是70亿语言模型参数+6.75亿ViT以及音频部分),最高支持32K的输入和8K的输出,响应非常快。官方的演示显示时延非常小。

Qwen2.5-Omni-7B模型在原有的Qwen2.5-7B的语言模型上继续增加了1.2万亿多模态数据的训练,主要包括:

  • 800B tokens(图像 & 视频相关)
  • 300B tokens(音频相关)
  • 100B tokens(音视频同步数据)
  • 额外使用 纯文本数据 维持语言能力

Qwen2.5-Omni-7B模型架构

Qwen2.5-Omni-7B的核心设计目标,是解决多模态数据的统一理解与实时生成难题。为此,阿里团队提出了Thinker-Talker架构,通过模块化分工实现高效协同。

下图展示了这一架构:

Qwen2.5-Omni-7B模型架构
Qwen2.5-Omni-7B模型架构

可以看到,下方的Thinker模块作为“大脑”,负责多模态信息的语义理解。它集成了视觉编码器(ViT)和音频编码器(Qwen2-Audio),能够动态处理图像、视频和音频输入。例如,视频内容会通过动态帧率采样转化为时序序列,音频则被转换为128通道的梅尔频谱图,确保不同模态数据的高效融合。而Talker模块则专注于流式语音生成,直接利用Thinker的隐藏表示,通过因果式解码器和滑动窗口机制,实现低延迟的语音输出。这种分工不仅降低了模态干扰,还通过共享历史上下文提升了交互效率。

Qwen2.5-Omni-7B模型的评测效果

作为Qwen系列的最新成员,该模型通过创新的架构设计与训练策略,实现了跨模态信息的深度协同,并在多项基准测试中展现了领先性能。

Qwen2.5-Omni-7B在单模态的评测结果中与同等参数规模中只专注单一任务的模型相比也很不错。例如,在ASR方面,中文的CommonVoice-zh数据集测试的错字率只有5.2%,而视频理解方面Video-MME的评测是72.4,优于GPT-4o-mini。

任务表现结果如下:

任务Qwen2.5-Omni
文本理解(Text → Text)MMLU Pro: 47.0, GSM8K: 88.7
语音识别(Audio → Text)CommonVoice-zh: 5.2% WER(低错误率)
图像理解(Image → Text)MMMU: 59.2, MathVision: 67.9
视频理解(Video → Text)Video-MME: 72.4(优于 GPT-4o-mini)
多模态综合能力(OmniBench)平均分 56.13%(SOTA 性能)
语音合成(Text → Speech)SEED-TTS WER: 6.54%(优于大多数 TTS 系统)

其中,核心的文本理解方面,MMLU Pro的评测与Llama3.1-8B接近,超过了Qwen2.5 7B,但是低于Gemma2-9B和Qwen2.5-7B模型。

Qwen2.5-Omni-7B模型总结

尽管与当前最强的大语言模型相比,Qwen2.5-Omni-7B模型的理解和推理能力不是最好的,但是低延迟、多模态输入以及还不错的通识能力,也提供了很多有价值的场景,例如:

  • 实时交互场景:如智能客服、在线教育,支持低延迟语音对话与视频分析。
  • 复杂任务处理:视频OCR、跨模态推理(如“根据监控视频描述事件并生成报告”)。
  • 个性化服务:通过多说话人微调,适配不同音色与情感风格,适用于虚拟助手、有声内容创作。

阿里团队计划进一步扩展模型的输出模态(如图像、音乐生成),并优化推理速度与鲁棒性。

Qwen2.5-Omni-7B模型的开源地址和官方体验地址参考DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen2_5-Omni-7B

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 重磅!Kimi K2.5发布,依然免费开源!原生多模态MoE架构,全球最大规模参数的开源模型之一,官方评测结果比肩诸多闭源模型!可以驱动100个子Agent执行!
  • 智谱发布 GLM-ASR(闭源)与开源 1.5B GLM-ASR-Nano-2512:针对中文与方言场景的语音识别尝试
  • DeepSeekAI开源全新的DeepSeek-OCR模型:参数规模仅30亿的MoE大模型,图像文本结构化提取成本下降十倍!准确率超过Qwen2.5-VL-7B
  • 智谱AI开源多模态推理大模型GLM-4.1V-Thinking:90亿参数,基于强化学习技术,带推理能力,多模态理解能力接近720亿的Qwen2.5-VL-72B,免费商用授权
  • Google开源多模态大模型Gemma3n的正式版:重新定义端侧AI的多模态能力,10B(100亿)参数以下最强多模态大模型,一个月前的预览版正式转正
  • MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B:评测结果与GPT-4o-mini与Gemma 3 27B有来有回,开源且免费商用,支持24种语言
  • CohereAI开源了2个Aya Vision多模态大模型:80亿和320亿两种规格多模态大模型,评测结果超越Qwen2.5 72B和Llama 3.2 90B,支持23种语言
  • OpenAI发布的GPT-4o能力总结,数学推理能力超过所有模型,价格下降一半!

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署