Qwen3-VL-2B-Thinking
支持
256K tokens
32768 tokens
多模态大模型
2025-10-22
Qwen3-VL-2B-Thinking 是 Qwen3-VL 系列的轻量级推理增强版本,由阿里巴巴 Qwen 团队发布。该模型在 2B 参数体量下,通过强化链式思维(Chain-of-Thought, CoT)与视觉-文本推理能力,实现多模态输入下的逻辑、时序与空间理解。
模型采用稠密结构(Dense),参数规模约 20 亿,具备原生 256K 上下文,可扩展至 1M。引入 Interleaved-MRoPE(多维旋转位置编码)与 DeepStack 层级融合结构,用于对齐多帧视频与长文本的时间序列。其 Thinking 版本在训练阶段额外使用强化推理标注数据集,优化视觉与语言间的因果与条件关系推断。
支持图像、视频、文本输入及文本输出,擅长长时视频推理、视觉链式推理、多轮多模态问答、STEM 场景因果判断等任务。通过多步思维路径生成,显著提升了在复杂视觉-逻辑任务下的稳定性。
根据官方模型卡,Thinking 版本在视觉 QA、时序推理与文档跨页理解等基准中较 Instruct 模型有更高的准确率。官方未公开具体数值,本条仅摘录结构性信息。
模型已在 Hugging Face 发布,许可为 Apache-2.0;源代码位于 Qwen3-VL 官方仓库,可通过 Transformers 推理接口直接加载使用。
关注DataLearnerAI微信公众号,接受最新大模型资讯