Qwen Image是阿里千问团队开源的高质量图片生成和编辑的大模型。该模型旨在解决当前领域内存在的两大核心挑战:对复杂文本(尤其是中英文长文本、多行文本)的精准渲染能力,以及在图像编辑任务中保持高度的语义和视觉一致性。
核心能力
根据其技术报告和公开的评测结果,Qwen Image在以下几个方面表现突出:
- 突出的文本渲染能力:Qwen Image能够生成包含复杂文本的图像,支持多行布局、段落级语义理解以及精细的细节处理。它不仅能处理英语等字母语言,在处理汉字等更具挑战性的语素文字方面也取得了显著进展,能够准确渲染长段落中英文及复杂排版的文字内容。
- 精准的图像编辑能力:模型支持指令式图像编辑,能够在遵循用户文本指令的同时,保持编辑区域之外的视觉细节不被破坏,并维持图像整体的语义连贯性。其编辑能力涵盖风格转换、对象添加/移除/替换、人物姿态修改等多种常见任务。
- 广泛的通用图像生成:除了上述特色能力,Qwen Image也具备强大的通用图像生成能力,能够根据文本提示生成不同艺术风格和主题的高质量图像,包括照片写实、动漫、绘画等多种风格。
下图是官方给出的实际图片集合,非常精美:

技术方法
Qwen Image的实现依赖于一套系统的技术方案,主要包括以下几个方面:
- 模型架构:模型采用了MMDiT (Multimodal Diffusion Transformer) 作为核心骨干,并结合了两个关键的外部模块:使用冻结的Qwen2.5-VL(一个强大的多模态大语言模型)作为文本和图像的语义理解编码器,以及一个经过优化的VAE (Variational AutoEncoder) 作为图像编解码器,负责将图像在像素空间与潜空间之间进行转换。
- 全面的数据策略:为了提升模型的文本渲染能力,团队构建了一条完整的数据处理流水线,包括大规模数据收集、多阶段精细化过滤、自动化标注以及数据合成。特别是通过程序化生成大量包含文本的合成数据(覆盖纯文本渲染、上下文场景渲染和结构化布局渲染),有效解决了自然数据集中高质量文本图像稀缺和长尾字符分布不均的问题。
- 渐进式训练策略:模型训练采用了一种课程学习(Curriculum Learning)的策略,从处理非文本图像开始,逐步引入简单到复杂的文本渲染任务,同时将训练图像的分辨率从低分辨率逐步提升至高分辨率。这种渐进式的方法有助于模型稳定学习并掌握复杂能力。
- 增强的编辑范式:在图像编辑任务中,Qwen Image采用了一种双重编码机制。它会同时将原始图像输入到Qwen2.5-VL以提取高层语义特征,并输入到VAE编码器以获取低层视觉保真度特征。这两种特征共同作为引导信号,使模型在编辑时既能准确理解用户意图,又能最大程度地保留原图的视觉一致性。
性能表现
Qwen Image在多个公开基准测试中展现了其性能。
- 通用生成与编辑:在GenEval、DPG、OneIG-Bench等通用图像生成基准,以及GEdit、ImgEdit等图像编辑基准上,Qwen Image的性能达到了业界领先水平。在由200多名专业背景评估者参与的AI Arena(一个匿名的模型对战评估平台)中,Qwen Image在与多个行业领先模型的比较中排名第三,并且是前列模型中唯一的开源模型。
- 文本渲染:在针对文本渲染的专项评测中,如LongText-Bench(长文本)、ChineseWord(中文汉字)和CVTG-2K(英文),Qwen Image的表现尤为突出,尤其是在中文文本生成方面,其准确率显著优于其他现有模型。
总而言之,Qwen Image是一个在通用图像生成和编辑方面能力强大,并在复杂文本渲染(特别是中文渲染)方面具备独特优势的开源基础模型,为开发者和研究人员提供了一个强大的工具。