GM

GME-Qwen2-VL-2B

gme-Qwen2-VL-2B

发布时间: 2024-12-242
模型参数
20.0亿
上下文长度
32K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
32K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2024-12-24
模型文件大小
8.85 GB
MoE架构
总参数 / 激活参数
20.0 亿 / 不涉及
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0- 免费商用授权
GitHub 源码
暂无GitHub开源地址
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
3/5
暂无公开的 API 定价信息。

评测得分

图像向量嵌入

共 1 项评测
评测名称 / 模式
得分
排名/总数
51.89
6 / 6

发布机构

模型解读

模型概述

GME(General Multimodal Embedding)是阿里巴巴通义实验室(Tongyi Lab)发布的统一多模态向量模型系列,基于 Qwen2-VL 骨干,用于 Universal Multimodal Retrieval(UMR):把文本、图像、图文对编码为同一向量空间中的 embedding,服务于跨模态/同模态检索与排序。本条目对应论文中 2B 规模的 GME-Qwen2-VL-2B;开源权重以 Hugging Face 仓库 Alibaba-NLP/gme-Qwen2-VL-2B-Instruct 形式提供(仓库名带 Instruct)。

关键规格

项目信息
发布方阿里巴巴(Tongyi Lab)
模型规模2B(模型卡中亦给出约 2.21B 的“Model Size”统计口径)
最大序列长度32768(约 32K)
向量维度1536
输入模态text / image / text+image
输出向量(embedding)
开源许可Apache-2.0
模型文件体积约 8.85 GB(主分支文件体积统计)

架构与训练要点(公开信息)

论文描述其以 Qwen2-VL 为骨干,采用 LoRA 方式进行检索向量化适配;并在训练中限制单张图像的视觉 token 上限为 1024,以兼顾训练效率与输入分辨率带来的 token 波动。论文同时报告构建了覆盖多种检索形态的数据(包含合成的 fused-modal 数据),整体训练数据规模达到百万级(论文报告约 8M 量级)。

能力与使用方式

模型卡给出三类 embedding:文本 embedding、图像 embedding、图文融合 embedding,并支持为 query 侧编码指定检索指令(instruction/prompt),用于对齐不同检索任务的“相关性”定义。模型卡同时给出 transformers 与 sentence-transformers 两套示例。

评测与基准(公开分数)

模型卡报告:在 UMRB(47 个子任务聚合)上,GME-Qwen2-VL-2B 的平均分为 64.45;并在 Model List 中同时列出 MTEB-en、MTEB-zh 等分数与模型维度/最大长度等信息。

已知限制(公开说明)

官方限制说明提到:评测与数据主要保留单图输入形态(multi-image / interleaved 形态未被系统评估);训练与测试主要使用英语数据,多语言多模态 embedding 的效果不作保证。

访问方式

开源权重:Hugging Face(见上方仓库链接)。模型卡提示:远程代码在部分 transformers 版本存在兼容性问题,建议使用指定版本或 sentence-transformers。另:模型卡注明该系列也提供阿里云商业 API(multimodal-embedding-v1),但其后端模型与开源权重并非完全一致。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码