阿里达摩院正式发布了全新的Qwen VLo大模型：全新一代理解与生成合一的多模态大模型

2025年6月26日，阿里达摩院正式发布了全新的Qwen VLo大模型。这是继QwenVL和Qwen2.5 VL后，阿里在多模态大模型领域又一具有里程碑意义的创新。Qwen VLo是一款统一的多模态理解与生成模型，不仅具备深度理解图片与文本内容的能力，更能基于这种理解实现高质量和高度一致的图像生成与编辑，真正跨越了“感知”与“创造”的界限。

不同于传统大模型仅聚焦于单项任务，Qwen VLo将感知和创作深度融合，用户既可以用自然语言直接生成图片，也可以对上传的图片进行多样化编辑。更值得一提的是，目前Qwen VLo已在Qwen Chat中开放体验，用户可通过简单的指令（如“生成一个可爱的猫”或“给猫加顶帽子”）感受到下一代多模态AI工具的强大能力。

[TOC]

技术突破：双向统一的多模态理解与生成引擎

Qwen VLo不仅在架构上做出了创新，还在生成机制和编辑灵活性等方面实现了突破。其全新设计聚焦于渐进式生成机制和大幅提升的指令理解及多轮编辑能力。

主要创新点

经过多项技术升级，Qwen VLo展现出以下突出亮点：

渐进式生成机制
Qwen VLo采用自左上到右下、由整体到细节的渐进式生成路径，每一步都在持续优化和细化预测结果，显著提升了生成图片的连贯性与精细度。
大幅增强的细节捕捉能力
针对传统多模态模型常见的语义错位（如汽车“换色”失败、结构错乱等），Qwen VLo通过融合高精度感知与语义保持能力，实现了结构信息与风格传递的高度一致，即使在复杂编辑场景下也能精准还原内容。
开放式自然语言编辑
支持用户用自由、开放的文本指令实现极其丰富的图像编辑任务，例如风格迁移、背景替换、多元素组合、实例分割与检测等，让创造力不设限。
多语言支持
支持中文与英文双语指令，保障全球用户便捷无障碍使用，实现真正意义上的多模态通用交互。
动态分辨率与极端比例适配
无需固定画幅，图片生成与处理可适应各类分辨率、比例，极大扩展了模型应用的灵活性。

这些创新点不仅解决了行业内长期存在的关键难题，也为用户带来了更高的创造自由度和更优的交互体验。

Qwen VLo的核心亮点：统一多模态理解与开放式生成

Qwen VLo在内容理解、开放编辑与多轮转换方面表现出了前所未有的优越性。模型定位于双向统一的多模态智能引擎，实现了感知与创造无缝衔接。

强化的内容理解与还原能力

Qwen VLo具备对图片语义、结构和风格的深度理解能力。例如，当用户上传一张汽车照片并要求“只更改车身颜色”时：

模型能够精准识别图片中的车型及其结构
保证除颜色以外其他视觉特征不变
生成结果自然且高度保真，不出现结构错位

这种能力极大地提升了创作的可控性和专业感。

支持开放式多轮编辑

用户可通过连续的自然语言指令，完成从风格迁移、元素添加到内容大改造的多轮编辑，灵感可以“即说即现”，突破了传统模型的功能边界。例如：

一键将普通照片转成梵高、吉卜力等指定艺术风格
根据描述添加/替换画面元素（例如从草地换到巴黎铁塔，再变成气球等）
支持检测、分割、蒙版等专业视觉操作

多轮流畅编辑的强大表现赋予用户无限的表达可能。

全面支持检测、分割与重分析

Qwen VLo不仅能生成图像，还能对已有或生成图像进行二次感知，例如：

彩色mask分割动物或物品边缘
检测物体、追踪画面中的指定元素

这种“感知-生成-再理解”的闭环流程，为设计、广告、教育等多领域带来创新工具。

性能对比：大幅超越前代与同类竞品

Qwen VLo在多模态理解、编辑灵活性和生成一致性等核心指标上相较前代及竞品均有明显提升。下表简要对比了Qwen VLo与Qwen2.5 VL、Sora等同类模型的关键性能：

模型	理解能力	单指令编辑	多轮连续编辑	指令灵活性	结构一致性	极端比例支持
Qwen2.5 VL	较强	一般	一定支持	中等	中等	部分支持
Sora	一般	一般	普通	普通	较差	不支持
Qwen VLo	最强	出色	流畅	极高	高度一致	全面适配

可以看到，Qwen VLo在多模态内容理解、复杂编辑流程、以及对极端画幅适配的能力上，均领先于现有的主流多模态大模型。

关键差异分析

Qwen VLo为什么能获得这样的提升？主要原因在于：

动态渐进式生成机制实现了画面生成的连续优化，结果更自然；
高度灵活的指令解析模块，让自由表达与可控生成兼得；
更强的多轮交互链路，即便是长链多步请求，表现依然稳定；

这些优势对实际生产、设计师日常工作以及AI内容创意均有重大意义。

实际体验：开放式指令+多场景测试

接下来，我们以真实场景演示Qwen VLo的落地表现，突出其在复杂需求中的实际效能。

单轮与多轮生成体验

以生成一只柴犬为例：

自然指令生成基础图像
用户输入“生成一个可爱的柴犬”，Qwen VLo迅速生成温馨可爱的小狗图。
连续编辑，高度柔性响应
- “背景换成草原”
- “戴上红色帽子和黑色墨镜，帽子上写QwenVLo”
- “变成吉卜力风格”
  多个连续编辑均能准确实现，不丢失主体结构，风格切换自然，展现出多轮流畅编辑能力。
专业视觉任务指令
- “用蓝色mask框出图中笔”
- “用粉色mask分割狗狗”
  仅用一句自然语言即可完成复杂分割，无需传统繁琐流程。

上图：Qwen VLo在生成-编辑-感知多个任务中的流畅表现（官方演示截图）

多元素复合与复杂场景描述

Qwen VLo同样支持多对象、多属性的组合生成需求。例如：

用户输入复杂指令：

生成照片，图中男人带着黑帽子在地铁上看报纸，旁边是一个美丽的带红色墨镜女性，还有一只哈士奇，地铁窗外自由女神像，站牌显示“Qwen VLo”

模型能将所有元素准确组合，兼顾构图合理、语义一致和细节真实。

复杂风格和内容迁移

对于风格迁移和局部重组，Qwen VLo可实现：

卡通风→真实风→气球艺术
替换画面物品（如“把西瓜换成榴莲”）
将物体嵌入场景（如“沐浴用品放到红色篮子”）

无论风格、内容或版面比例要求多么苛刻，模型都能保持高一致性。

使用指南与总结

动态分辨率与渐进式生成，创作与控制体验双提升

Qwen VLo支持动态分辨率输入输出，打破了传统生成模型对图片尺寸、比例的限制。这为海报、长幅插画、社交媒体Banner等实际应用场景提供极大便利。

渐进式生成则为用户带来：

画面逐步可视化调整空间
便捷完成含大量文本图片的广告/漫画分镜
创作结果可控性显著提升

如何快速体验与应用

目前，Qwen VLo已在Qwen Chat正式上线预览：

直接输入自然语言描述，即可生成或编辑图片
支持中英文自由切换、复杂组合编辑
未来还会陆续开放多图片输入、极端长宽图自定义等能力

体验入口：访问Qwen Chat，输入描述，例如
“生成一个戴帽子的柴犬”
或
“将此图片变成19世纪风格，并替换为东京背景”
便可体验行业领先的多模态生成交互。

存在的局限与展望

目前Qwen VLo仍处于预览阶段，部分生成结果可能偶有不准确、不符合预期等问题。对指令理解、极端复杂任务下的鲁棒性也有提升空间。官方团队将持续优化稳定性与创作灵活性。

总结：全新多模态交互范式的探索者

Qwen VLo作为阿里多模态大模型家族的新成员，不仅实现了感知与创造的一体化，更树立了行业内多轮自然编辑与复杂场景处理的新标杆。无论是设计师、内容创作者，还是普通用户，都能在Qwen VLo中体会到前所未有的AI灵感释放和人机协同体验。

未来，随着更多输入类型、能力和场景的开放，Qwen VLo有望成为连接想象与现实，驱动创新表达的核心引擎。如果你关注AI多模态内容创作，不妨第一时间登陆Qwen Chat亲身体验这场认知与创造力升级的变革。

获取和使用建议

关注Qwen官方社区，掌握最新模型动态与能力更新
实时试用Qwen Chat，提出反馈建议，助力模型成长
推广至实际设计、教育、内容生产等场景，释放多模态AI潜能

让我们一起见证，从理解到描绘，AI如何颠覆人类的创作边界。