Qwen3-VL-2B
Qwen3-VL-2B-Instruct
模型参数
20.0亿
上下文长度
256K
中文支持
支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
256K tokens
最大输出长度
32768 tokens
模型类型
多模态大模型
发布时间
2025-10-22
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
20.0 亿 / 不涉及
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)
开源和体验地址
官方介绍与博客
API接口信息
接口速度
3/5
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
阿里巴巴
查看发布机构详情 模型解读
模型简介与定位
Qwen3-VL-2B-Instruct 隶属于 Qwen3-VL 多模态系列,由阿里巴巴 Qwen 团队发布,面向轻量化与边缘部署场景,强调在有限显存下提供图像/视频/文本一体化理解与生成能力。
架构与技术规格
模型为稠密结构(Dense),参数规模约 2B。官方模型卡与博客显示该代模型引入 Interleaved-MRoPE(跨时间/宽度/高度的稳健位置编码)、DeepStack(多层级 ViT 特征融合)、Text–Timestamp 对齐等组件,用于提升长时域视频推理与精细粒度视觉-文本对齐。
上下文窗口为原生 256K,可扩展至 1M,用于长文档与长视频的检索与逐段索引。
核心能力与支持模态
支持图文/视频到文本的多模态理解与推理:包含 GUI 元素识别与工具调用(“视觉代理”场景)、空间关系与遮挡判断、STEM 向多步推理、32 种语言的 OCR 与长文档结构解析等。输出为文本。
性能与评测(来自官方模型卡/博客)
模型卡展示了多模态与纯文本基准的对比曲线与示例,表明在视觉理解、视频时间定位与 OCR 长文档方面相较前代有幅度提升。由于该条目未给出细化的逐基准数值,本条严格遵循公开页展示做客观摘录,不延伸推断。
应用场景与限制
适用于本地/边缘侧的图文与视频理解、GUI Agent、文档 OCR 解析与检索问答等;当前未提供该特定权重的官方托管 API 定价,部署需参考本地推理框架与硬件条件。
访问与许可
权重通过 Hugging Face 提供,许可为 Apache-2.0;代码与示例在 GitHub 的 Qwen3-VL 仓库。可使用 Transformers 与相应 Processor 进行推理。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
