Qw

Qwen3-VL-2B

多模态大模型

Qwen3-VL-2B-Instruct

发布时间: 2025-10-22

134
模型参数(Parameters)
20.0
最高上下文长度(Context Length)
256K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

256K tokens

最长输出结果

32768 tokens

模型类型

多模态大模型

发布时间

2025-10-22

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

API接口信息

接口速度(满分5分)
接口价格
暂无公开的 API 定价信息。

Qwen3-VL-2B模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

Qwen3-VL-2B-Instruct模型解读

模型简介与定位

Qwen3-VL-2B-Instruct 隶属于 Qwen3-VL 多模态系列,由阿里巴巴 Qwen 团队发布,面向轻量化与边缘部署场景,强调在有限显存下提供图像/视频/文本一体化理解与生成能力。

架构与技术规格

模型为稠密结构(Dense),参数规模约 2B。官方模型卡与博客显示该代模型引入 Interleaved-MRoPE(跨时间/宽度/高度的稳健位置编码)、DeepStack(多层级 ViT 特征融合)、Text–Timestamp 对齐等组件,用于提升长时域视频推理与精细粒度视觉-文本对齐。

上下文窗口为原生 256K,可扩展至 1M,用于长文档与长视频的检索与逐段索引。

核心能力与支持模态

支持图文/视频到文本的多模态理解与推理:包含 GUI 元素识别与工具调用(“视觉代理”场景)、空间关系与遮挡判断、STEM 向多步推理、32 种语言的 OCR 与长文档结构解析等。输出为文本。

性能与评测(来自官方模型卡/博客)

模型卡展示了多模态与纯文本基准的对比曲线与示例,表明在视觉理解、视频时间定位与 OCR 长文档方面相较前代有幅度提升。由于该条目未给出细化的逐基准数值,本条严格遵循公开页展示做客观摘录,不延伸推断。

应用场景与限制

适用于本地/边缘侧的图文与视频理解、GUI Agent、文档 OCR 解析与检索问答等;当前未提供该特定权重的官方托管 API 定价,部署需参考本地推理框架与硬件条件。

访问与许可

权重通过 Hugging Face 提供,许可为 Apache-2.0;代码与示例在 GitHub 的 Qwen3-VL 仓库。可使用 Transformers 与相应 Processor 进行推理。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat