Qwen3-VL-Reranker-8B

Name: Qwen3 Vision-Language Reranker 8B
Availability: InStock
Author: 阿里巴巴

embedding模型

Qwen3 Vision-Language Reranker 8B

Release date: 2026-01-08更新于: 2026-01-08 23:23:55432

Live demoGitHub Hugging Face Compare

Parameters

80.0亿

Context length

32K

Chinese support

Supported

Reasoning ability

Qwen3 Vision-Language Reranker 8B is an AI model published by 阿里巴巴, released on 2026-01-08, for embedding模型, with 80.0B parameters, and 32K tokens context length, requiring about 16.91GB storage, under the Apache 2.0 license.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Qwen3-VL-Reranker-8B

Model basics

Reasoning traces

Not supported

Thinking modes

Thinking modes not supported

Context length

32K tokens

Max output length

1 tokens

Model type

embedding模型

Release date

2026-01-08

Model file size

16.91GB

MoE architecture

Total params / Active params

80.0B / N/A

Knowledge cutoff

No data

Qwen3-VL-Reranker-8B

Open source & experience

Code license

Apache 2.0

Weights license

Apache 2.0- 免费商用授权

GitHub repo

https://github.com/QwenLM/Qwen3-VL-Embedding/

Hugging Face

https://huggingface.co/Qwen/Qwen3-VL-Reranker-8B

Live demo

No live demo

Qwen3-VL-Reranker-8B

Official resources

Paper

Qwen3-VL-EmbeddingandQwen3-VL-Reranker:AUnifiedFrameworkforState-of-the-ArtMultimodalRetrievalandRanking

DataLearnerAI blog

重磅！阿里开源2个多模态向量大模型和重排序大模型：Qwen3-VL-Embedding和Qwen3-VL-Reranker，图片和视频也可以用来做RAG了！

Qwen3-VL-Reranker-8B

API details

API speed

3/5

No public API pricing yet.

Qwen3-VL-Reranker-8B

Benchmark Results

No benchmark data to show.

Qwen3-VL-Reranker-8B

Publisher

阿里巴巴

View publisher details

Qwen3 Vision-Language Reranker 8B

Model Overview

Qwen3-VL-Reranker-8B 是阿里 Qwen 团队推出的一款 多模态重排序（Rerank）模型，用于检索系统中的第二阶段排序（Re-ranking）。模型基于 Qwen3-VL 视觉语言基础架构构建，专门面向“高精度相关性判断”这一环节，适合与向量召回模型配合使用，构成完整的两阶段检索或 RAG 流水线。

该模型的输入是一个 (query, document) 对，其中 query 与 document 均支持文本、图片、截图（视觉文档）、视频，或任意混合模态组合；输出为一个连续的相关性分数，用于对候选结果进行重新排序。

核心定位

用于 TopK 候选结果的精排阶段
面向多模态检索、多模态 RAG、视觉文档检索、视频检索等场景
目标是：在不显著扩大检索规模成本的前提下，显著提升最终排序准确率

在实际系统中，Qwen3-VL-Reranker-8B 通常与 Qwen3-VL-Embedding 系列模型配合使用：

Embedding 负责高效召回候选，Reranker 负责精细判断“哪些结果真正相关”。

模型规格（官方公开信息整理）

项目说明

模型类型多模态重排序（Multimodal Reranker）

架构Cross-Encoder（交叉编码器）

参数规模8B 档位（部分平台显示为约 9B，统计口径不同）

网络层数36 层

最大上下文长度32K tokens

输入模态文本 / 图片 / 截图 / 视频 / 混合模态

指令支持Instruction-aware（支持自定义任务指令）

多语言能力支持 30+ 种语言

权重格式BF16 等

许可证Apache 2.0（可商用）

工作机制说明

Qwen3-VL-Reranker-8B 采用 交叉编码器（cross-encoder） 结构，对 query 与 document 进行联合编码和深度跨模态交互建模，而不是像向量模型那样分别编码后再计算相似度。

在训练和推理阶段，模型将重排序问题建模为一个二分类相关性判断问题，预测该 (query, document) 对是否“相关”。最终的相关性分数由模型内部的正负类 logit 差值计算得到，可直接用于排序。

这种设计使模型能够捕捉更细粒度的语义、视觉和上下文关系，尤其适合用于精排阶段。

Instruction-aware 能力

模型支持在输入中加入 自定义指令（Instruction），用于显式定义“什么叫相关”。

通过指令，开发者可以针对不同业务目标调整排序标准，例如：

问答场景：是否能够直接回答用户问题
运维场景：是否包含相同错误现象与解决步骤
文档检索：是否包含指定字段、表格或关键参数
商品场景：是否为同款/同型号商品

这使得同一模型可以在不同业务任务下复用，而无需重新训练。

训练与数据覆盖范围

在官方披露的信息中，Qwen3-VL-Reranker-8B 的训练数据覆盖多种检索与重排序任务类型，包括但不限于：

图文检索（Image–Text Retrieval）
视频检索与视频片段定位（Video / Moment Retrieval）
视觉文档检索（扫描件、PDF 页面、PPT 截图等）
多模态问答与相关性判断

训练过程中采用多阶段策略，并结合参数高效微调方式（如 LoRA），在保证效果的同时控制训练与推理成本。

评测表现（官方公开结果）

在官方给出的多模态检索与重排序评测中，Qwen3-VL-Reranker-8B 在多个基准上显著优于仅使用向量召回的方案，尤其在以下场景中提升明显：

多模态综合检索（图像 / 视频 / 视觉文档混合）
视觉文档检索（VisDoc）
视频检索与视频-文本匹配
多语言文本检索

在两阶段检索设置中（Embedding 召回 + Reranker 精排），8B 版本在综合指标上通常优于小参数版本，是追求效果优先场景下的推荐选择。

典型使用方式

第一阶段召回使用多模态 Embedding 模型对 query 与候选内容向量化，从大规模索引中召回 TopK。
第二阶段精排使用 Qwen3-VL-Reranker-8B 对 (query, document) 对逐一打分，对 TopK 结果重新排序。
可选指令增强在 query 中加入任务指令，使排序结果更贴近具体业务定义的“相关性”。

适用场景总结

Qwen3-VL-Reranker-8B 适合用于以下类型系统：

多模态 RAG（文本 + 图片 + 视频 + 文档）
企业知识库与视觉文档检索
客服/运维/法务等高准确性检索系统
视频内容检索与定位
需要跨语言、跨模态排序的检索系统

整体来看，该模型的定位非常清晰：不是替代向量模型，而是作为高精度精排模块，提升多模态检索系统的最终可用性与命中率。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送