加载中...
加载中...
Qwen3-VL-4B-Thinking
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
Qwen3-VL-4B-Thinking 是阿里巴巴 Qwen 团队在 Qwen3-VL 系列下发布的推理增强多模态模型,支持图像/视频作为输入并输出文本。4B/8B(Instruct 与 Thinking)于 2025-10-15 公告上线。
覆盖 OCR(32 种语言)、版面/结构化文档理解、空间/遮挡关系与 2D/3D grounding、长视频事件索引与定位、GUI 元素识别与步骤性交互等。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
