GME-Qwen2-VL-7B

Name: gme-Qwen2-VL-7B
Author: 阿里巴巴

embedding模型Qwen2

gme-Qwen2-VL-7B

发布时间: 2024-12-24更新于: 2026-01-09 14:08:45202

在线体验GitHubHugging Face Compare

模型参数

70亿

上下文长度

32K

中文支持

不支持

推理能力

gme-Qwen2-VL-7B 是由阿里巴巴发布的 AI 模型，发布时间为 2024-12-24，定位为 embedding模型，参数规模约为 70亿，上下文长度为 32K，模型文件大小约 33.2 GB，采用 Apache 2.0 许可，在 MMEB-v2-Image 上取得 55.95 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GME-Qwen2-VL-7B

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

32K tokens

最大输出长度

暂无数据

模型类型

embedding模型

输入/输出模态

文本、图像、向量 → 向量

发布时间

2024-12-24

模型文件大小

33.2 GB

MoE架构

否

总参数 / 激活参数

70亿 / 不涉及

知识截止

暂无数据

GME-Qwen2-VL-7B

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

暂无GitHub开源地址

Hugging Face

https://huggingface.co/Alibaba-NLP/gme-Qwen2-VL-7B-Instruct

在线体验

暂无在线体验地址

GME-Qwen2-VL-7B

官方介绍与博客

官方论文

GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

DataLearnerAI博客

暂无介绍博客

GME-Qwen2-VL-7B

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

GME-Qwen2-VL-7B

评测结果

GME-Qwen2-VL-7B 当前已收录的代表性评测结果包括 MMEB-v2-Image（5 / 6，得分 55.95）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

图像向量嵌入

共 1 项评测

评测名称 / 模式

得分

排名/总数

MMEB-v2-Image

55.95

5 / 6

查看评测深度分析与其他模型对比

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

GME-Qwen2-VL-7B

发布机构

阿里巴巴

查看发布机构详情

gme-Qwen2-VL-7B

模型解读

模型概述

GME（General Multimodal Embedding）是阿里巴巴通义实验室（Tongyi Lab）发布的一组“统一多模态向量表示”模型，基于 Qwen2-VL 系列多模态大模型骨干。该系列面向 Universal Multimodal Retrieval（UMR）任务：将文本、图像、图文对映射到同一向量空间，用于任意模态之间的相似度检索（Any-to-Any）。本条目对应论文中 7B 规模的 GME-Qwen2-VL-7B；开源权重以 Hugging Face 仓库 Alibaba-NLP/gme-Qwen2-VL-7B-Instruct 形式提供（仓库名带 Instruct）。

关键规格

项目	信息
发布方	阿里巴巴（Tongyi Lab）
模型规模	7B（模型卡中亦给出约 8.29B 的“Model Size”统计口径）
最大序列长度	32768（约 32K）
向量维度	3584
输入模态	text / image / text+image
输出	向量（embedding）
开源许可	Apache-2.0
模型文件体积	约 33.2 GB（主分支文件体积统计）

架构与训练要点（公开信息）

论文描述其以 Qwen2-VL 为骨干，通过 LoRA 方式进行适配训练（例如 LoRA rank=8、temperature=0.03、学习率 1e-4 等设置）；为控制训练效率与视觉 token 数量，单张图像的视觉 token 上限设置为 1024。训练数据方面，论文报告构建并使用了大规模的多模态检索训练数据（包含合成的 fused-modal 数据），总规模达到百万级样本（论文报告约 8M 量级）。

能力与使用方式

模型卡给出典型调用：get_text_embeddings、get_image_embeddings、get_fused_embeddings，并支持通过 instruction/prompt 形式为“查询侧 embedding”注入检索意图（例如 Text-to-Image 检索提示词），用于区分 query/corpus 的编码方式。

评测与基准（公开分数）

模型卡在 UMRB 与 MTEB 等基准上报告了分数：在 UMRB（47 个子任务聚合）上，GME-Qwen2-VL-7B 的平均分为 67.44；在模型卡的 Model List 中同时给出 MTEB-en、MTEB-zh 分数与模型维度/最大长度等信息。

已知限制（公开说明）

官方在限制说明中提到：由于视觉 token 成本与数据覆盖限制，评测与数据主要保留“单图”输入形态；此外训练与测试主要使用英语数据，虽然骨干模型支持多语言，但多语言多模态 embedding 的效果不作保证。

访问方式

开源权重：Hugging Face（见上方仓库链接）。模型卡同时提示：远程代码在部分 transformers 版本（如 >=4.52.0）存在兼容性问题，建议使用指定版本或 sentence-transformers 路线。另：模型卡注明该系列也提供阿里云商业 API（multimodal-embedding-v1），但其后端模型与开源权重并非完全一致。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送