阿里正式开源最强视觉理解大模型Qwen3-VL:关键评测基准超Gemini 2.5 Pro,支持针对视觉输入进行推理,甚至可以理解3D场景

365 阅读

今日,QwenTeam 正式发布了全新一代多模态视觉语言模型 —— Qwen3-VL 系列。这是 Qwen 家族迄今为止最强大的视觉语言模型,在视觉感知、跨模态推理、长上下文理解、空间推理和智能代理交互等多个维度全面提升。旗舰开源模型 Qwen3-VL-235B-A22B 已经上线,并提供 InstructThinking 两个版本,前者在视觉感知上全面对标并超过 Gemini 2.5 Pro,后者则在多模态推理基准上创下新纪录,成为开源阵营的最强视觉理解大模型。

这一代模型的目标不再是“看懂图片”,而是迈向真正的认知和行动力:理解世界、推理事件,并执行复杂任务。

Qwen3-VL的特点

本次阿里开源的Qwen3-VL模型是目前最大的一个,即Qwen3-VL-235B-22B。基于7月份开源的语言模型Qwen3-235B-22B继续训练得到,分为2个不同的版本,即不带思考模式的Qwen3-VL-235B-22B-Instruct和带推理过程的Qwen3-VL-235B-22B-Thinking。

相比较前代的模型,本次阿里开源的Qwen3-VL-235B-22B模型升级很大,主要总结如下:

  • 视觉Agent能力全面提升:模型不仅能识别图像,还能直接操作 PC 或手机界面,理解按钮功能,调用工具并完成复杂任务。在基准测试 OS World 上取得全球领先成绩。

  • 视觉编程能力增强:支持将设计稿或视频画面直接转化为 Draw.io、HTML、CSS、JavaScript 代码,实现真正的“所见即所得”编程。

  • 空间理解再进化:从 2D 绝对坐标转向相对坐标定位,并进一步支持 3D 定位与推理。它能准确判断物体间的相对关系、遮挡情况和运动轨迹,为机器人和自动驾驶奠定基础。

  • 长上下文与长视频处理:原生支持 256K token 上下文,最高可扩展至 100 万 token,可覆盖整本教材或两小时长视频,并能逐秒索引内容

  • 多模态推理优化:Thinking 版本在数学和 STEM 任务上表现突出,能进行因果分析、逐步推演和基于证据的逻辑推理。

  • 视觉识别扩展:依托更高质量与更大规模的预训练数据,模型几乎可以“识别一切” —— 从名人、动漫角色、地标到动植物,应对日常生活和专业场景需求。

  • OCR 大幅增强:支持语言从 19 种扩展至 32 种,在光线不足、模糊或倾斜文本等复杂条件下依然保持高准确率,对稀有字符和古文字的识别也有明显提升。

  • 语言能力保持顶尖:在文本任务上的表现与纯语言模型 Qwen3-235B-A22B-2507 相当,实现了真正无损的文本–视觉融合。

过去的多模态模型,虽然能识别图片或视频中的物体,但更多停留在“视觉识别”层面。它们缺乏对空间关系、时间序列、跨模态推理的深度理解,面对长视频、复杂文档或跨学科问题时往往力不从心。

Qwen3-VL 的出现正是为了解决这一局限。 通过系统性升级,它将视觉模型从“被动感知”推向“主动认知”,从“简单识别”迈入“深度推理与执行”。例如,它不再只告诉你“这是一张地图”,而是能分析路径、规划路线,甚至操作设备完成导航。

Qwen3-VL-235B-A22B评测结果:好过Gemini 2.5 Pro和GPT-5

Qwen3-VL 的表现并不仅限于单一维度,而是经过了系统化的多角度评测。官方对模型的视觉与多模态能力进行了全面测试,涵盖了如下评测维度:

  • 大学水平的综合问题
  • 数学与科学推理
  • 逻辑谜题
  • 一般视觉问答(VQA)
  • 主观体验与指令跟随
  • 多语言文本识别与图表/文档解析
  • 2D/3D 物体定位与空间推理
  • 多图理解与跨图对比
  • 具身与空间感知
  • 视频理解、代理任务执行与代码生成

首先,我们看一下非推理模式下,Qwen3-VL-235B-A22B-Instruct在不同任务上和其它模型的对比:

红色表示模型表现更好的结果,显然,在非推理模式下,总共46项评测结果中,Qwen3-VL-235B-A22B-Instruct在32项评测结果中超过了Gemini 2.5 Pro、GPT-5、Claude Opus4.1模型等,非常强悍。

接下来是推理模式的对比:

在带推理模式的评测对比中,共46个评测集,Qwen3-VL-235B-A22B-Thinking模型有28项。

这里,我们也可以顺便对比一下带推理模式和不带推理模式的2个不同版本的Qwen3-VL模型的差异:

类别 (Category)基准测试 (Benchmark)Qwen3-VL InstructQwen3-VL Thinking
STEM & Puzzle (科学、技术、工程、数学以及谜题解答能力)MMMU_VAL78.780.6
MMMU_Pro68.169.3
MathVista_mini84.985.8
MathVision66.574.6
MathVerse_mini85.085.0
ZeroBench29.94.0
VisionMagic_Sub89.937.7
RealWorldQA (STEM)28.424.4
MMBench_EN_V1.1_dev90.690.6
General VQA (通用视觉问答)RealWorldQA (General)78.481.3
MM-Situ78.478.7
SimplyVQA63.061.3
Subjective Experience and Instruction Following (主观体验和指令遵循)HallusionBench63.266.7
MM_MT_Bench91.38.5
MIA_Bench8.592.7
MMLongBench-Doc57.056.2
Text Recognition and Chart/Document Understanding (文本识别与图表/文档理解)DocVQA_TEST89.296.5
InfoVQA_TEST97.189.5
AI2D_TEST89.789.2
OCRBench (en/zh)67.1 / 61.886.8 / 83.5
CC_OCR82.291.5
ChartX(RQ)62.166.1
2D/3D Grounding (2D/3D 视觉定位)RefCOCO-avg91.992.4
CountBench88.693.7
OdinW1353.943.2
ARKWebComs13.053.7
HyperSim39.411.0
SUNRGBD70.734.9
Objectron71.25.5
Multi-Image (多图像理解)BLINK70.771.2
MUIRBENCH72.880.1
Embedded and Spatial Understanding (嵌入式和空间理解)ERQA51.352.5
VsiSpatialBench62.655.3
RefoSpatialBench83.166.3
RoboSpatialHome69.573.9
Video (视频理解)VideoMME(w/o sub)79.279.0
iLVBench84.383.8
CharadesSTA67.763.6
VideoMMMU64.863.5
Agent (智能体能力)ScreenSpot74.780.0
ScreenSpot Pro95.495.4
OSWorldG62.061.8
AndroidWorld63.768.3
Coding (代码能力)Design2Code92.093.4
CharMimir_V2_Direct80.5
UniSvg69.3

二者在不同评测集上各有优劣吧,Qwen3-VL Thinking在逻辑推理/数学、空间理解和智能体方面更强。但是通用VQA不占优势。

这里我们总结一下Qwen3-VL的评测结果:

  • 视觉感知对比:在主流视觉基准上,Qwen3-VL-235B-A22B-Instruct 超过 Gemini 2.5 Pro 和 GPT-5,刷新开源模型记录。
  • 推理能力:在复杂的数学与跨模态推理测试(如 MathVision、MMMU、MathVista)中,Thinking 版本甚至超越 Gemini 2.5 Pro,成为 STEM 领域的标杆。
  • 长上下文处理:在“needle-in-a-haystack”测试中,256K token 长度下准确率 100%;扩展至 100 万 token(约等于两小时视频)时仍保持 99.5% 的召回率。
  • 多语言 OCR:覆盖 32 种语言,在 39 种语言测试集中,32 种语言准确率超过 70%,显著领先前代版本。

换句话说:Qwen3-VL 不仅缩小了开源与闭源的差距,更在多个维度实现了反超。

不过,DataLearnerAI做了一个简单的测试,测试了阿里自己发布的评测对比图片,让模型数阿里模型测试效果更好的个数。结果发现,Gemini 2.5 Pro正确,Qwen3-VL的两个模型都出现了错误的情况,就这个角度看,也不能完全看评测结果来评定。

Qwen3-VL的技术亮点与应用场景

Qwen3-VL的提升是显而易见的,特别是数学推理和Agent方面的提升,给我们打开了很多的应用的想象。

视觉代理:从识别到操作

Qwen3-VL 能够像人一样操作手机或电脑,识别 GUI 元素,点击按钮,填写表单。 应用场景:一位用户可以上传截图,让模型自动完成“打开微信 → 搜索联系人 → 发送消息”的流程,真正实现 AI 助手的自动化执行。

视觉编程:所见即所得

模型可直接将草图、设计稿转化为 HTML、CSS 或 JavaScript 页面。例如,将手绘的电商首页草图上传,即可生成完整的网页代码,节省大量前端开发时间。 应用场景:UI 设计师可即时生成交互原型,开发者可快速调试界面问题。

空间理解:2D/3D 推理的突破

Qwen3-VL 不仅能识别物体,还能判断物体之间的相对位置、遮挡关系,甚至推断三维空间结构。 应用场景:在自动驾驶场景中,它能准确识别“左前方 10 米处有行人”,并预测运动趋势,为机器人和导航应用奠定基础。

多语言 OCR 与跨学科推理

OCR 支持从 10 种语言扩展到 32 种,在复杂场景下依然保持高识别率。 应用场景:医疗领域,医生可拍摄病历,模型自动提取药物名、检查费、诊断结果;学术研究中,学生可上传数学题图像,模型逐步推演计算步骤并给出答案。

Qwen3-VL-235B-A22B的开源情况和总结

目前Qwen3-VL-235B-A22B已经可以在官网体验,开源地址也发布。同时官方提供了API接口,价格按照输入的长度阶梯收费。

Qwen3-VL 的发布,标志着多模态模型进入一个全新阶段:不仅能看,还能理解、推理并采取行动。它在视觉代理、空间理解、长视频解析、多语言 OCR 等方面全面升级,并在数学与科学推理等部分评测结果上反超 Gemini 2.5 Pro,是开源的一大贡献!

对于开发者,它是自动化交互的利器;对于研究者,它是 STEM 推理和学术辅助的助手;对于企业,它是长文档解析和智能应用的核心引擎。

关于这两个版本模型的更多信息参考DataLearnerAI模型的信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen3-VL-235B-A22B-Instruct

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码