DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

评测结果超GPT-5 mini和Claude 4 Sonnet,阿里再发开源版本Qwen3-VL模型:手机可运行的Qwen3-VL-2B和Qwen3-VL-32B

2025/10/22 21:55:52
565 阅读
Qwen3-VLQwen3-VL-2BQwen3-VL-32B图像识别多模态理解

2025年10月21日,阿里巴巴Qwen团队再次发力,推出了Qwen3-VL-2B和Qwen3-VL-32B两个视觉理解大模型。其中,Qwen3-VL-32B是Qwen3系列中稠密架构参数量最高的模型,其评测结果超过GPT-5 mini和Claude 4 Sonnet。

本次发布的Qwen3-VL-32B模型和Qwen3-VL-2B模型均区分非推理版本和推理版本,且有官方的FP8量化版本。而Qwen3-VL-2B-FP8模型二进制文件大小仅3.47GB,手机端完全可以运行。

Qwen3-VL-32B模型核心特点:Agent能力和空间感知能力大幅提升

本次发布的Qwen3-VL-32B模型是一个稠密架构的模型(非MoE架构,总参数量和激活参数量一致)。根据此前阿里官方的说明,32B规模是他们测试的稠密架构中参数规模最大的一类,再往上性价比和回报没有那么好。因此,大家可以理解为32B是稠密架构参数量最高的模型了。

Qwen3-VL-32B模型的参数量为320亿,原生支持256K上下文,最高可以扩展到100万的输入。根据官方的描述,它可以读取几个小时时长的视频并具备完整的回忆能力!

Qwen3-VL-32B模型的主要特点包括:

  • 增强了视觉Agent能力,可以识别PC/Mobile的界面关键元素,理解如何使用这些界面控件完成任务;
  • 可以基于图像和视频输入生成Draw.io、HTML、CSS等代码;
  • 具有高级的空间感知能力:传统模型常在遮挡或透视场景中迷失方向,但Qwen3-VL-32B模型通过引入相对坐标系统和遮挡预测算法,提高了3D物体检测精度,这部分应该也是为了未来的Qwen的机器人准备的;
  • 提升了STEM(科学工程)、数学领域的因果推断能力;
  • 具有更广阔的知识,可以识别几乎任何内容:如知名人物、动漫、产品、地标等;
  • 支持32种语言,同时在低光照、模糊和倾斜情况下表现稳健。

简单总结,Qwen3-VL-32作为稠密架构模型中参数最高的一个模型,已经不再是把识别图像作为核心任务,而是重点在于提高模型特定场景的能力,包括计算机界面的识别与操作、空间感知、逻辑推理等。这些能力的提升,将会大幅拓展当前视觉大模型的实际应用价值。

Qwen3-VL-32B模型的评测结果:超过GPT-5 Mini、CLaude 4 Sonnet

在官方公开的评测结果上,Qwen3-VL-32B的效果显著好于GPT-5 mini和Claude 4 Sonnet。在全部46个评测基准上,Qwen3-VL-32B-Thinking版本在大多数评测基准上都要高出了其它模型。

官方宣称,即使与Qwen3-VL-235B-A22B模型对比,Qwen3-VL-32B模型表现也基本持平,要知道前者是2350亿参数模型(激活参数220亿)。这么对比,似乎稠密版本的Qwen3-VL-32B模型性价比更高。

此外,相比较纯文本的Qwen3-32B模型,Qwen3-VL-32B在纯文本任务上表现也略好一丢丢,这一点说明阿里在模型的后训练上的技术掌握的非常好。

Qwen3-VL-2B的模型特点:手机端可运行的视觉大模型

相比较32B版本的模型,Qwen3-VL-2B则小巧的很多,它的官方FP8量化版本的二进制文件大小仅3.47GB,对于当前大多数智能手机来说,都可以轻松载入运行。

尽管这个模型的各项评分比Qwen3-VL-32B模型低20个点左右,但是考虑到仅20亿参数,还是很优秀的。

Qwen3-VL-32B

本次阿里开源的这两个视觉识别大模型均以Apache 2.0许可开源,依然是完全免费商用授权。

Qwen3-VL-2B模型的FP8版本在NVIDIA 5090上可以实现267 token/s的极速推理,非常快!

官方API价格方面Qwen3-VL-32B的输入是0.7美元/100万tokens,输出是2.8美元/100 万tokens,也是很便宜了。

从近期阿里开源的这一系列视觉大模型来看,阿里Qwen的视觉大模型演进方向很明确:提升大模型识别图片的准确率以及推理能力,然后借此提高大模型识别计算机界面的水平,为以后辅助和代替用户操作计算机做准备。另一个明显的方向是空间感知,这方面应该是为了机器人做准备,机器人的运动和操作不仅要识别平面内容,空间距离感知也很重要。

总之,Qwen3-VL系列模型满足了移动端到数据中心的不同规模的部署诉求,且完全免费开源,开源领域即使不是第一也是第一阵营了。

关于Qwen3-VL-2B和Qwen3-VL-32B模型更多的信息参考DataLearnerAI的模型信息卡地址: https://www.datalearner.com/ai-models/pretrained-models/qwen3-vl-2b-instruct https://www.datalearner.com/ai-models/pretrained-models/qwen3-vl-32b-instruct

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 阿里开源2个全新多模态理解大模型Qwen3-VL-4B和8B:主流评测结果超Gemini 2.5 Flash Lite、GPT-5 Nano,面向多模态Agent和机器人应用打造
  • 阿里正式开源最强视觉理解大模型Qwen3-VL:关键评测基准超Gemini 2.5 Pro,支持针对视觉输入进行推理,甚至可以理解3D场景

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署