评测结果超GPT-5 mini和Claude 4 Sonnet,阿里再发开源版本Qwen3-VL模型:手机可运行的Qwen3-VL-2B和Qwen3-VL-32B
2025年10月21日,阿里巴巴Qwen团队再次发力,推出了Qwen3-VL-2B和Qwen3-VL-32B两个视觉理解大模型。其中,Qwen3-VL-32B是Qwen3系列中稠密架构参数量最高的模型,其评测结果超过GPT-5 mini和Claude 4 Sonnet。

本次发布的Qwen3-VL-32B模型和Qwen3-VL-2B模型均区分非推理版本和推理版本,且有官方的FP8量化版本。而Qwen3-VL-2B-FP8模型二进制文件大小仅3.47GB,手机端完全可以运行。
Qwen3-VL-32B模型核心特点:Agent能力和空间感知能力大幅提升
本次发布的Qwen3-VL-32B模型是一个稠密架构的模型(非MoE架构,总参数量和激活参数量一致)。根据此前阿里官方的说明,32B规模是他们测试的稠密架构中参数规模最大的一类,再往上性价比和回报没有那么好。因此,大家可以理解为32B是稠密架构参数量最高的模型了。
Qwen3-VL-32B模型的参数量为320亿,原生支持256K上下文,最高可以扩展到100万的输入。根据官方的描述,它可以读取几个小时时长的视频并具备完整的回忆能力!

