阿里正式开源最强视觉理解大模型Qwen3-VL:关键评测基准超Gemini 2.5 Pro,支持针对视觉输入进行推理,甚至可以理解3D场景
今日,QwenTeam 正式发布了全新一代多模态视觉语言模型 —— Qwen3-VL 系列。这是 Qwen 家族迄今为止最强大的视觉语言模型,在视觉感知、跨模态推理、长上下文理解、空间推理和智能代理交互等多个维度全面提升。旗舰开源模型 Qwen3-VL-235B-A22B 已经上线,并提供 Instruct 和 Thinking 两个版本,前者在视觉感知上全面对标并超过 Gemini 2.5 Pro,后者则在多模态推理基准上创下新纪录,成为开源阵营的最强视觉理解大模型。

这一代模型的目标不再是“看懂图片”,而是迈向真正的认知和行动力:理解世界、推理事件,并执行复杂任务。
Qwen3-VL的特点
本次阿里开源的Qwen3-VL模型是目前最大的一个,即Qwen3-VL-235B-22B。基于7月份开源的语言模型Qwen3-235B-22B继续训练得到,分为2个不同的版本,即不带思考模式的Qwen3-VL-235B-22B-Instruct和带推理过程的Qwen3-VL-235B-22B-Thinking。
相比较前代的模型,本次阿里开源的Qwen3-VL-235B-22B模型升级很大,主要总结如下:
-
视觉Agent能力全面提升:模型不仅能识别图像,还能直接操作 PC 或手机界面,理解按钮功能,调用工具并完成复杂任务。在基准测试 OS World 上取得全球领先成绩。
-
视觉编程能力增强:支持将设计稿或视频画面直接转化为 代码,实现真正的“所见即所得”编程。




