Qwen Large Vision Language Model
发布时间: 2023-08-24
不支持
2K tokens
多模态大模型
2023-08-24
19GB
输入不支持
输入不支持
输入不支持
输入不支持
输入不支持
输出不支持
输出不支持
输出不支持
输出不支持
输出不支持
Qwen-VL 的整体架构包含三个组件:
此外,Qwen-VL 还设计了特殊的图像输入接口、检测框表示方法,支持多图像并列输入,增强了模型的细粒度视觉理解能力。
Qwen-VL 的训练分为三个阶段:
Qwen-VL 在各类视觉语言理解基准测试上取得显著的效果提升,包括:
综上所述,Qwen-VL 系列模型作为开源的视觉语言基础模型,其多语言支持、细粒度视觉理解的能力值得关注。模型强大的零样本和 few-shot 学习能力也为各类下游任务提供了有力的预训练基础。
关注DataLearnerAI微信公众号,接受最新大模型资讯