阿里正式开源最强视觉理解大模型Qwen3-VL：关键评测基准超Gemini 2.5 Pro，支持针对视觉输入进行推理，甚至可以理解3D场景

今日，QwenTeam 正式发布了全新一代多模态视觉语言模型 —— Qwen3-VL 系列。这是 Qwen 家族迄今为止最强大的视觉语言模型，在视觉感知、跨模态推理、长上下文理解、空间推理和智能代理交互等多个维度全面提升。旗舰开源模型 Qwen3-VL-235B-A22B 已经上线，并提供 Instruct 和 Thinking 两个版本，前者在视觉感知上全面对标并超过 Gemini 2.5 Pro，后者则在多模态推理基准上创下新纪录，成为开源阵营的最强视觉理解大模型。

这一代模型的目标不再是“看懂图片”，而是迈向真正的认知和行动力：理解世界、推理事件，并执行复杂任务。

类别 (Category)	基准测试 (Benchmark)	Qwen3-VL Instruct	Qwen3-VL Thinking
STEM & Puzzle (科学、技术、工程、数学以及谜题解答能力)	MMMU_VAL	78.7	80.6
	MMMU_Pro	68.1	69.3
	MathVista_mini	84.9	85.8
	MathVision	66.5	74.6
	MathVerse_mini	85.0	85.0
	ZeroBench	29.9	4.0

阿里正式开源最强视觉理解大模型Qwen3-VL：关键评测基准超Gemini 2.5 Pro，支持针对视觉输入进行推理，甚至可以理解3D场景

DataLearner 官方微信

Qwen3-VL的特点

Qwen3-VL-235B-A22B评测结果：好过Gemini 2.5 Pro和GPT-5

Qwen3-VL的技术亮点与应用场景

视觉代理：从识别到操作

视觉编程：所见即所得

空间理解：2D/3D 推理的突破

多语言 OCR 与跨学科推理

Qwen3-VL-235B-A22B的开源情况和总结