加载中...
加载中...
Qwen-Image-2.0
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
就在刚刚,阿里宣布发布Qwen-Image-2.O模型,该模型是Qwen Image系列的最新版本,这个模型综合了此前的文本生成图片和图片编辑的能力,在文本渲染、生成PPT图片方面大幅提升。不过相比较之前的Qwen Image系列,该版本的模型并没有开源,目前在官网可以免费使用。
Qwen-Image系列背景与演进
Qwen-Image-2.0 关键特性与能力
Qwen-Image-2.0 技术架构与训练细节
Qwen-Image-2.0 性能基准与实测
Qwen-Image-2.0 目前官网免费使用
阿里的Qwen系列模型自2023年以来已成为开源AI社区的焦点。该系列起初以多模态大语言模型为主,逐步扩展到编码、数学、视觉等领域。
Qwen-Image系列是Qwen模型体系专注于图像处理的模型,最早在2025年8月份开源第一个版本(参数规模200亿,参考:https://www.datalearner.com/blog/1051754324540648 )。该版本强调多语言文本到图像生成,在Artificial Analysis Image Arena排行榜上位居前茅,是当时前10名中唯一的开源模型。 随后,Qwen-Image-2512(2025年12月)进一步提升了写实性和细节渲染,在AI Arena的盲测中基于超过10,000次人类评估,成为顶级开源文本到图像模型,与Google的Imagen或OpenAI的DALL-E系列竞争。 除了这类图像处理模型,阿里还开源了Qwen-Image-Edit这种专注于图像编辑的模型,如基于自然语言修改照片。
Qwen-Image-2.0是一个重大升级,它将生成和编辑两条技术线合并为一个模型。不过,这次模型发布并没有开源。
Qwen-Image-2.0的核心在于其多功能性和高保真输出。模型支持原生2K分辨率(2048x2048像素),并能处理长达1,000个token的复杂指令(输入Prompt),这使得它在专业场景中脱颖而出。 官方总结的主要特性:
这些特性使Qwen-Image-2.0适用于创意设计、营销、教育和娱乐等领域,尤其在需要高分辨率和精确文本的场景中。简单来说,写PPT、做广告图片都是好手!
此外,官方还说模型还支持视频理解等扩展,但目前焦点仍为静态图像。
虽然官方没有描述更多的Qwen Image 2.0模型的技术细节,但在官方的博客中有一句话值得关注:这个模型的尺寸更小,速度很快。这里的更小相比较谁来说呢?此前的200亿参数开源版本吗?
很有可能,因为官方博客中还有一个小小的细节值得注意,在官方的生成图片的示例中,有一个Qwen-Image-2.0的核心创新点,里面提到了:
7B Efficiency: 2K image generation in seconds以及[8B Qwen3-VL Encoder] → [7B Diffusion Decoder] → pixels (2048×2048)
这是不是说这个模型是70亿的Diffusion模型+80亿的Qwen3-VL模型合并的?
这个描述符合比前代更小巧,却在质量上提升明显。
这个模型发布的比较突然。目前官网没有给出更多的评测结果,只有一个在阿里云自己的AI Arena平台盲测得分,这个得分排行榜中,Qwen-Image-2.0在文本生成图片中排名第三,仅次于Google的Nano Banana Pro和GPT-Image-1.5。在图像编辑排行榜中排名第二,仅次于Nano Banana Pro。
不过这个盲测平台目前可能还不够广泛。我们看几个实例吧:
效果很不错,毛笔字的中文也很可以,打印的纸张和显示屏的文本也很好。
不过,我们也测出不太好的例子,比如生成PPT页面,文字一多就不行了。
相同的提示词,Google的Nano Banana Pro模型的正文文本也很好,但是Qwen-Image-2.0还是有点问题。但是已经很不错了!
虽然Qwen-Image-2.0 没有开源,但是在Qwen官网可以免费使用。其它不说,就冲它可以免费生成2K的图片,并且中文渲染非常好的情况,应该就值得使用了。Qwen-Image-2.0 的中文渲染效果几乎和Nano Banana Pro没有区别!
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
