评测结果超GPT-5 mini和Claude 4 Sonnet，阿里再发开源版本Qwen3-VL模型：手机可运行的Qwen3-VL-2B和Qwen3-VL-32B

2025年10月21日，阿里巴巴Qwen团队再次发力，推出了Qwen3-VL-2B和Qwen3-VL-32B两个视觉理解大模型。其中，Qwen3-VL-32B是Qwen3系列中稠密架构参数量最高的模型，其评测结果超过GPT-5 mini和Claude 4 Sonnet。

本次发布的Qwen3-VL-32B模型和Qwen3-VL-2B模型均区分非推理版本和推理版本，且有官方的FP8量化版本。而Qwen3-VL-2B-FP8模型二进制文件大小仅3.47GB，手机端完全可以运行。

Qwen3-VL-32B模型核心特点：Agent能力和空间感知能力大幅提升

本次发布的Qwen3-VL-32B模型是一个稠密架构的模型（非MoE架构，总参数量和激活参数量一致）。根据此前阿里官方的说明，32B规模是他们测试的稠密架构中参数规模最大的一类，再往上性价比和回报没有那么好。因此，大家可以理解为32B是稠密架构参数量最高的模型了。

Qwen3-VL-32B模型的参数量为320亿，原生支持256K上下文，最高可以扩展到100万的输入。根据官方的描述，它可以读取几个小时时长的视频并具备完整的回忆能力！

Qwen3-VL-32B模型的主要特点包括：

增强了视觉Agent能力，可以识别PC/Mobile的界面关键元素，理解如何使用这些界面控件完成任务；
可以基于图像和视频输入生成Draw.io、HTML、CSS等代码；
具有高级的空间感知能力：传统模型常在遮挡或透视场景中迷失方向，但Qwen3-VL-32B模型通过引入相对坐标系统和遮挡预测算法，提高了3D物体检测精度，这部分应该也是为了未来的Qwen的机器人准备的；
提升了STEM（科学工程）、数学领域的因果推断能力；
具有更广阔的知识，可以识别几乎任何内容：如知名人物、动漫、产品、地标等；
支持32种语言，同时在低光照、模糊和倾斜情况下表现稳健。

简单总结，Qwen3-VL-32作为稠密架构模型中参数最高的一个模型，已经不再是把识别图像作为核心任务，而是重点在于提高模型特定场景的能力，包括计算机界面的识别与操作、空间感知、逻辑推理等。这些能力的提升，将会大幅拓展当前视觉大模型的实际应用价值。

Qwen3-VL-32B模型的评测结果：超过GPT-5 Mini、CLaude 4 Sonnet

在官方公开的评测结果上，Qwen3-VL-32B的效果显著好于GPT-5 mini和Claude 4 Sonnet。在全部46个评测基准上，Qwen3-VL-32B-Thinking版本在大多数评测基准上都要高出了其它模型。

官方宣称，即使与Qwen3-VL-235B-A22B模型对比，Qwen3-VL-32B模型表现也基本持平，要知道前者是2350亿参数模型（激活参数220亿）。这么对比，似乎稠密版本的Qwen3-VL-32B模型性价比更高。

此外，相比较纯文本的Qwen3-32B模型，Qwen3-VL-32B在纯文本任务上表现也略好一丢丢，这一点说明阿里在模型的后训练上的技术掌握的非常好。

Qwen3-VL-2B的模型特点：手机端可运行的视觉大模型

相比较32B版本的模型，Qwen3-VL-2B则小巧的很多，它的官方FP8量化版本的二进制文件大小仅3.47GB，对于当前大多数智能手机来说，都可以轻松载入运行。

尽管这个模型的各项评分比Qwen3-VL-32B模型低20个点左右，但是考虑到仅20亿参数，还是很优秀的。

Qwen3-VL-32B

本次阿里开源的这两个视觉识别大模型均以Apache 2.0许可开源，依然是完全免费商用授权。

Qwen3-VL-2B模型的FP8版本在NVIDIA 5090上可以实现267 token/s的极速推理，非常快！

官方API价格方面Qwen3-VL-32B的输入是0.7美元/100万tokens，输出是2.8美元/100 万tokens，也是很便宜了。

从近期阿里开源的这一系列视觉大模型来看，阿里Qwen的视觉大模型演进方向很明确：提升大模型识别图片的准确率以及推理能力，然后借此提高大模型识别计算机界面的水平，为以后辅助和代替用户操作计算机做准备。另一个明显的方向是空间感知，这方面应该是为了机器人做准备，机器人的运动和操作不仅要识别平面内容，空间距离感知也很重要。

总之，Qwen3-VL系列模型满足了移动端到数据中心的不同规模的部署诉求，且完全免费开源，开源领域即使不是第一也是第一阵营了。

关于Qwen3-VL-2B和Qwen3-VL-32B模型更多的信息参考DataLearnerAI的模型信息卡地址： https://www.datalearner.com/ai-models/pretrained-models/qwen3-vl-2b-instruct https://www.datalearner.com/ai-models/pretrained-models/qwen3-vl-32b-instruct

Qwen3-VL-32B模型核心特点：Agent能力和空间感知能力大幅提升

Qwen3-VL-32B模型的评测结果：超过GPT-5 Mini、CLaude 4 Sonnet

Qwen3-VL-2B的模型特点：手机端可运行的视觉大模型

Qwen3-VL-32B

DataLearner WeChat