Qw

Qwen3-VL-4B-Thinking

推理大模型

Qwen3-VL-4B-Thinking

发布时间: 2025-10-15

243
模型参数(Parameters)
44.4
最高上下文长度(Context Length)
256K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

256K tokens

最长输出结果
暂无数据
模型类型

推理大模型

发布时间

2025-10-15

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
暂无公开的 API 定价信息。

Qwen3-VL-4B-Thinking模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

Qwen3-VL-4B-Thinking模型解读

模型简介与发布

Qwen3-VL-4B-Thinking 是阿里巴巴 Qwen 团队在 Qwen3-VL 系列下发布的推理增强多模态模型,支持图像/视频作为输入并输出文本。4B/8B(Instruct 与 Thinking)于 2025-10-15 公告上线。

架构与规格

  • 上下文:原生 256K,可扩展至 1M。
  • 关键组件:Interleaved-MRoPE(时序与二维空间位置编码)、DeepStack(多层 ViT 特征融合)、Text-Timestamp 对齐以强化长视频时序定位。
  • 许可:Apache-2.0。

核心能力与模态

覆盖 OCR(32 种语言)、版面/结构化文档理解、空间/遮挡关系与 2D/3D grounding、长视频事件索引与定位、GUI 元素识别与步骤性交互等。

访问方式

  • GitHub:提供 Qwen3-VL 代码与使用示例。
  • Hugging Face:提供本模型权重与模型卡。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat