评测结果超GPT-5 mini和Claude 4 Sonnet,阿里再发开源版本Qwen3-VL模型:手机可运行的Qwen3-VL-2B和Qwen3-VL-32B
2025年10月21日,阿里巴巴Qwen团队再次发力,推出了Qwen3-VL-2B和Qwen3-VL-32B两个视觉理解大模型。其中,Qwen3-VL-32B是Qwen3系列中稠密架构参数量最高的模型,其评测结果超过GPT-5 mini和Claude 4 Sonnet。

本次发布的Qwen3-VL-32B模型和Qwen3-VL-2B模型均区分非推理版本和推理版本,且有官方的FP8量化版本。而Qwen3-VL-2B-FP8模型二进制文件大小仅3.47GB,手机端完全可以运行。
Qwen3-VL-32B模型核心特点:Agent能力和空间感知能力大幅提升
本次发布的Qwen3-VL-32B模型是一个稠密架构的模型(非MoE架构,总参数量和激活参数量一致)。根据此前阿里官方的说明,32B规模是他们测试的稠密架构中参数规模最大的一类,再往上性价比和回报没有那么好。因此,大家可以理解为32B是稠密架构参数量最高的模型了。
Qwen3-VL-32B模型的参数量为320亿,原生支持256K上下文,最高可以扩展到100万的输入。根据官方的描述,它可以读取几个小时时长的视频并具备完整的回忆能力!
Qwen3-VL-32B模型的主要特点包括:
- 增强了视觉Agent能力,可以识别PC/Mobile的界面关键元素,理解如何使用这些界面控件完成任务;
- 可以基于图像和视频输入生成Draw.io、HTML、CSS等代码;
- 具有高级的空间感知能力:传统模型常在遮挡或透视场景中迷失方向,但Qwen3-VL-32B模型通过引入相对坐标系统和遮挡预测算法,提高了3D物体检测精度,这部分应该也是为了未来的Qwen的机器人准备的;
- 提升了STEM(科学工程)、数学领域的能力;

