模型特点

Qwen-VL 的整体架构包含三个组件:

语言模型基础：采用 Qwen-7B 预训练语言模型作为基础，获得强大的语言表达和理解能力。
视觉编码器：使用 ViT 作为视觉 backbone，从 ImageNet 预训练权重初始化，输入图像大小为 448x448。
位置感知适配器：使用自注意力层将图像特征序列压缩为固定长度，加入绝对位置编码保留细粒度位置信息。

此外，Qwen-VL 还设计了特殊的图像输入接口、检测框表示方法，支持多图像并列输入，增强了模型的细粒度视觉理解能力。

训练方案

Qwen-VL 的训练分为三个阶段:

阶段一：仅优化视觉编码器和适配器，图像输入大小为 224x224。使用 5 亿张弱标注图像-文本数据进行预训练。
阶段二：解冻语言模型，增加输入分辨率到 448x448。使用高质量强标注数据进行 7 项视觉语言任务的多任务训练。
阶段三：指令调优，使用人工构建的指令-式对话数据进行调优，获得交互式对话模型 Qwen-VL-Chat。

评价结果

Qwen-VL 在各类视觉语言理解基准测试上取得显著的效果提升，包括:

图像字幕、VQA：在 Flickr30K、VQAv2 上分别达到 85.8、79.5 的指标。
文本VQA：在 TextVQA 上达到 63.8 的准确率。
提述理解：在 RefCOCO 等数据集上精确定位的准确率最高可达 89%。
指令遵循：在 Touchstone 英文基准上评分达到 645.2。

综上所述，Qwen-VL 系列模型作为开源的视觉语言基础模型，其多语言支持、细粒度视觉理解的能力值得关注。模型强大的零样本和 few-shot 学习能力也为各类下游任务提供了有力的预训练基础。

Qwen-VL

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

Qwen-VL模型在各大评测榜单的评分

发布机构

模型介绍

模型特点

训练方案

评价结果

关注DataLearnerAI公众号