Qwen Image

Name: Qwen Image
Author: 阿里巴巴

多模态大模型Qwen

Qwen Image

发布时间: 2025-08-04更新于: 2025-08-05 00:24:181,202

在线体验 GitHub Hugging Face Compare

模型参数

200亿

上下文长度

128K

中文支持

支持

推理能力

Qwen Image 是由阿里巴巴发布的 AI 模型，发布时间为 2025-08-04，定位为多模态大模型，参数规模约为 200亿，上下文长度为 128K，模型文件大小约 40GB，采用 Apache 2.0 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Qwen Image

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

128K tokens

最大输出长度

4K tokens

模型类型

多模态大模型

输入/输出模态

文本 → 文本、图像

发布时间

2025-08-04

模型文件大小

40GB

MoE架构

否

总参数 / 激活参数

200亿 / 不涉及

知识截止

暂无数据

Qwen Image

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

https://github.com/QwenLM/Qwen-Image

Hugging Face

https://huggingface.co/Qwen/Qwen-Image

在线体验

https://chat.qwen.ai/

Qwen Image

官方介绍与博客

官方论文

Qwen-Image: Crafting with Native Text Rendering

DataLearnerAI博客

重磅！阿里开源媲美GPT-4o的图片生成和编辑大模型Qwen Image，中文渲染能力很强，还有精确的文字控制，免费开源！

Qwen Image

API接口信息

接口速度

2/5

暂无公开的 API 定价信息。

Qwen Image

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Qwen Image

发布机构

阿里巴巴

查看发布机构详情

Qwen Image

模型解读

Qwen Image是阿里千问团队开源的高质量图片生成和编辑的大模型。该模型旨在解决当前领域内存在的两大核心挑战：对复杂文本（尤其是中英文长文本、多行文本）的精准渲染能力，以及在图像编辑任务中保持高度的语义和视觉一致性。

核心能力

根据其技术报告和公开的评测结果，Qwen Image在以下几个方面表现突出：

突出的文本渲染能力：Qwen Image能够生成包含复杂文本的图像，支持多行布局、段落级语义理解以及精细的细节处理。它不仅能处理英语等字母语言，在处理汉字等更具挑战性的语素文字方面也取得了显著进展，能够准确渲染长段落中英文及复杂排版的文字内容。
精准的图像编辑能力：模型支持指令式图像编辑，能够在遵循用户文本指令的同时，保持编辑区域之外的视觉细节不被破坏，并维持图像整体的语义连贯性。其编辑能力涵盖风格转换、对象添加/移除/替换、人物姿态修改等多种常见任务。
广泛的通用图像生成：除了上述特色能力，Qwen Image也具备强大的通用图像生成能力，能够根据文本提示生成不同艺术风格和主题的高质量图像，包括照片写实、动漫、绘画等多种风格。

下图是官方给出的实际图片集合，非常精美：

技术方法

Qwen Image的实现依赖于一套系统的技术方案，主要包括以下几个方面：

模型架构：模型采用了MMDiT (Multimodal Diffusion Transformer) 作为核心骨干，并结合了两个关键的外部模块：使用冻结的Qwen2.5-VL（一个强大的多模态大语言模型）作为文本和图像的语义理解编码器，以及一个经过优化的VAE (Variational AutoEncoder) 作为图像编解码器，负责将图像在像素空间与潜空间之间进行转换。
全面的数据策略：为了提升模型的文本渲染能力，团队构建了一条完整的数据处理流水线，包括大规模数据收集、多阶段精细化过滤、自动化标注以及数据合成。特别是通过程序化生成大量包含文本的合成数据（覆盖纯文本渲染、上下文场景渲染和结构化布局渲染），有效解决了自然数据集中高质量文本图像稀缺和长尾字符分布不均的问题。
渐进式训练策略：模型训练采用了一种课程学习（Curriculum Learning）的策略，从处理非文本图像开始，逐步引入简单到复杂的文本渲染任务，同时将训练图像的分辨率从低分辨率逐步提升至高分辨率。这种渐进式的方法有助于模型稳定学习并掌握复杂能力。
增强的编辑范式：在图像编辑任务中，Qwen Image采用了一种双重编码机制。它会同时将原始图像输入到Qwen2.5-VL以提取高层语义特征，并输入到VAE编码器以获取低层视觉保真度特征。这两种特征共同作为引导信号，使模型在编辑时既能准确理解用户意图，又能最大程度地保留原图的视觉一致性。

性能表现

Qwen Image在多个公开基准测试中展现了其性能。

通用生成与编辑：在GenEval、DPG、OneIG-Bench等通用图像生成基准，以及GEdit、ImgEdit等图像编辑基准上，Qwen Image的性能达到了业界领先水平。在由200多名专业背景评估者参与的AI Arena（一个匿名的模型对战评估平台）中，Qwen Image在与多个行业领先模型的比较中排名第三，并且是前列模型中唯一的开源模型。
文本渲染：在针对文本渲染的专项评测中，如LongText-Bench（长文本）、ChineseWord（中文汉字）和CVTG-2K（英文），Qwen Image的表现尤为突出，尤其是在中文文本生成方面，其准确率显著优于其他现有模型。

总而言之，Qwen Image是一个在通用图像生成和编辑方面能力强大，并在复杂文本渲染（特别是中文渲染）方面具备独特优势的开源基础模型，为开发者和研究人员提供了一个强大的工具。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送