阿里发布第二代图像大模型:Qwen-Image-2.0,融合文本生成图片、图片编辑为一体全球目前排名第三!中文渲染很棒!但不开源~
就在刚刚,阿里宣布发布Qwen-Image-2.O模型,该模型是Qwen Image系列的最新版本,这个模型综合了此前的文本生成图片和图片编辑的能力,在文本渲染、生成PPT图片方面大幅提升。不过相比较之前的Qwen Image系列,该版本的模型并没有开源,目前在官网可以免费使用。

Qwen-Image系列背景与演进
阿里的Qwen系列模型自2023年以来已成为开源AI社区的焦点。该系列起初以多模态大语言模型为主,逐步扩展到编码、数学、视觉等领域。
Qwen-Image系列是Qwen模型体系专注于图像处理的模型,最早在2025年8月份开源第一个版本(参数规模200亿,参考:https://www.datalearner.com/blog/1051754324540648 )。该版本强调多语言文本到图像生成,在Artificial Analysis Image Arena排行榜上位居前茅,是当时前10名中唯一的开源模型。 随后,Qwen-Image-2512(2025年12月)进一步提升了写实性和细节渲染,在AI Arena的盲测中基于超过10,000次人类评估,成为顶级开源文本到图像模型,与Google的Imagen或OpenAI的DALL-E系列竞争。 除了这类图像处理模型,阿里还开源了Qwen-Image-Edit这种专注于图像编辑的模型,如基于自然语言修改照片。
Qwen-Image-2.0是一个重大升级,它将生成和编辑两条技术线合并为一个模型。不过,这次模型发布并没有开源。
Qwen-Image-2.0 关键特性与能力
Qwen-Image-2.0的核心在于其多功能性和高保真输出。模型支持原生2K分辨率(2048x2048像素),并能处理长达1,000个token的复杂指令(输入Prompt),这使得它在专业场景中脱颖而出。 官方总结的主要特性:
-
专业排版与信息图表生成:模型擅长渲染复杂文本,如中文书法(瘦金体、小楷等)、双语海报、PPT时间轴、漫画分格和OKR图表。它能精确对齐网格、处理多栏布局、进度条和箭头连接,确保美观性和真实感,包括光影反射效果。 例如,用户输入一段描述即可生成包含行程图标的“杭州两日禅意之旅”海报,或带有手写文本的办公室白板场景。
-
照片级写实渲染:在非文本场景中,模型能捕捉微观细节,如皮肤毛孔、织物纹理、建筑表面和超过20种绿色的自然植被。动态交互(如马骑人)或宁静景观(如夏日森林)均能以摄影级质量呈现。 这在早期版本如Qwen-Image-2512中已初见端倪,但2.0版进一步优化了语义一致性,避免了常见的“AI痕迹”。
-
统一生成与编辑功能:不同于前代需单独模型,Qwen-Image-2.0无缝整合两者。编辑能力包括在现有图像上添加诗词、合成多人合影,或跨风格融合(如卡通人物置入真实照片)。 这借鉴了Qwen-Image-Edit的自然语言编辑,但更高效。
-
多语言与语义遵循:支持中英双语,严格遵守用户提示,避免偏差。社区用户称赞其在处理中文字符时的准确性,远超许多商业模型。
这些特性使Qwen-Image-2.0适用于创意设计、营销、教育和娱乐等领域,尤其在需要高分辨率和精确文本的场景中。简单来说,写PPT、做广告图片都是好手!
此外,官方还说模型还支持视频理解等扩展,但目前焦点仍为静态图像。
Qwen-Image-2.0 技术架构与训练细节
虽然官方没有描述更多的Qwen Image 2.0模型的技术细节,但在官方的博客中有一句话值得关注:这个模型的尺寸更小,速度很快。这里的更小相比较谁来说呢?此前的200亿参数开源版本吗?
很有可能,因为官方博客中还有一个小小的细节值得注意,在官方的生成图片的示例中,有一个Qwen-Image-2.0的核心创新点,里面提到了:
7B Efficiency: 2K image generation in seconds以及[8B Qwen3-VL Encoder] → [7B Diffusion Decoder] → pixels (2048×2048)

这是不是说这个模型是70亿的Diffusion模型+80亿的Qwen3-VL模型合并的?
这个描述符合比前代更小巧,却在质量上提升明显。
Qwen-Image-2.0 性能基准与实测
这个模型发布的比较突然。目前官网没有给出更多的评测结果,只有一个在阿里云自己的AI Arena平台盲测得分,这个得分排行榜中,Qwen-Image-2.0在文本生成图片中排名第三,仅次于Google的Nano Banana Pro和GPT-Image-1.5。在图像编辑排行榜中排名第二,仅次于Nano Banana Pro。
不过这个盲测平台目前可能还不够广泛。我们看几个实例吧:



效果很不错,毛笔字的中文也很可以,打印的纸张和显示屏的文本也很好。
不过,我们也测出不太好的例子,比如生成PPT页面,文字一多就不行了。


相同的提示词,Google的Nano Banana Pro模型的正文文本也很好,但是Qwen-Image-2.0还是有点问题。但是已经很不错了!
Qwen-Image-2.0 目前官网免费使用
虽然Qwen-Image-2.0 没有开源,但是在Qwen官网可以免费使用。其它不说,就冲它可以免费生成2K的图片,并且中文渲染非常好的情况,应该就值得使用了。Qwen-Image-2.0 的中文渲染效果几乎和Nano Banana Pro没有区别!
关于Qwen-Image-2.0 的更多信息参考DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/qwen-image-2-0
