Qwen3 Vision-Language Embedding 2B
Qwen3 Vision-Language Embedding 2B 是由 阿里巴巴 发布的 AI 模型,发布时间为 2026-01-08,定位为 embedding模型,参数规模约为 20.0B,上下文长度为 32K,模型文件大小约 4.26GB,采用 Apache 2.0 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
Qwen3-VL-Embedding-2B 当前已收录的代表性评测结果包括 MMEB-v2-Image(4 / 6,得分 74.96)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
Qwen3-VL-Embedding-2B 是 Qwen 团队推出的 多模态向量表示模型,定位于检索系统和 RAG 系统中的第一阶段召回(Recall)。模型基于 Qwen3-VL 视觉语言架构构建,能够将文本、图片、截图(视觉文档)、视频等多种模态统一编码为稠密向量,用于相似度计算和大规模检索。
该模型在参数规模、性能与推理成本之间取得较好平衡,适合在大规模向量库、在线检索服务和资源受限环境中使用。
在典型系统中,Qwen3-VL-Embedding-2B 常作为默认向量模型,与多模态 Reranker 组成两阶段检索链路。
项目说明
模型类型Multimodal Embedding(多模态向量模型)
参数规模2B
网络层数28 层
最大上下文长度32K tokens
向量维度2048(支持 MRL 动态裁剪)
输入模态文本 / 图片 / 截图 / 视频 / 混合模态
指令支持Instruction-aware(支持自定义任务指令)
多语言能力支持 30+ 种语言
量化支持支持低精度量化(如 int8)
许可证Apache 2.0(可商用)
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
