Qwen3-VL-2B-Thinking

多模态大模型

发布时间: 2025-10-22

GitHub Hugging Face 在线体验

模型参数（Parameters）

20.0

最高上下文长度（Context Length）

256K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

256K tokens

最长输出结果

32768 tokens

模型类型

多模态大模型

发布时间

2025-10-22

模型预文件大小

暂无数据

推理模式

思考模式（Thinking Mode）

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0 - 免费商用授权

GitHub 源码

https://github.com/QwenLM/Qwen3-VL

Hugging Face

https://huggingface.co/Qwen/Qwen3-VL-2B-Thinking

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

Qwen3 Technical Report

DataLearnerAI博客

阿里再发开源版本Qwen3-VL模型，2个稠密架构的多模态理解大模型，分别是手机可运行的Qwen3-VL-2B和Qwen3-VL-32B：评测结果超GPT-5 Mini

API接口信息

接口速度（满分5分）

接口价格

暂无公开的 API 定价信息。

Qwen3-VL-2B-Thinking模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

阿里巴巴

查看发布机构详情

Qwen3-VL-2B-Thinking模型解读

模型简介与定位

Qwen3-VL-2B-Thinking 是 Qwen3-VL 系列的轻量级推理增强版本，由阿里巴巴 Qwen 团队发布。该模型在 2B 参数体量下，通过强化链式思维（Chain-of-Thought, CoT）与视觉-文本推理能力，实现多模态输入下的逻辑、时序与空间理解。

架构与技术规格

模型采用稠密结构（Dense），参数规模约 20 亿，具备原生 256K 上下文，可扩展至 1M。引入 Interleaved-MRoPE（多维旋转位置编码）与 DeepStack 层级融合结构，用于对齐多帧视频与长文本的时间序列。其 Thinking 版本在训练阶段额外使用强化推理标注数据集，优化视觉与语言间的因果与条件关系推断。

核心能力与模态支持

支持图像、视频、文本输入及文本输出，擅长长时视频推理、视觉链式推理、多轮多模态问答、STEM 场景因果判断等任务。通过多步思维路径生成，显著提升了在复杂视觉-逻辑任务下的稳定性。

性能与评测

根据官方模型卡，Thinking 版本在视觉 QA、时序推理与文档跨页理解等基准中较 Instruct 模型有更高的准确率。官方未公开具体数值，本条仅摘录结构性信息。

访问与许可

模型已在 Hugging Face 发布，许可为 Apache-2.0；源代码位于 Qwen3-VL 官方仓库，可通过 Transformers 推理接口直接加载使用。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯