MMEB:多模态嵌入基准评测,用于测试多模态向量检索和排序准确性的基准

16 阅读

MMEB(Massive Multimodal Embedding Benchmark)是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入,并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集,提供一个统一的评估平台,用于测试模型在分类、检索和其他任务上的性能。

MMEB Image V2版本的详细评测参考:https://www.datalearner.com/benchmarks/mmeb-v2-image

多模态嵌入评测面临的挑战

当前,多模态嵌入模型在处理自然图像时支持有限,这限制了其在AI代理、多模态搜索、推荐系统和检索增强生成等场景中的应用。与文本嵌入模型相比,多模态嵌入模型的发展进度较慢。现有的基准测试缺乏对视频和视觉文档等多样视觉形式的覆盖,导致评估结果无法全面反映模型的通用性。

MMEB基准的基本信息与目标

MMEB由滑铁卢大学、销售力量研究(Salesforce Research)、加州大学圣巴巴拉分校和清华大学的研究人员开发。原版MMEB于2024年10月通过arXiv预印本(arXiv:2410.05160)发布,MMEB-V2于2025年7月通过arXiv预印本(arXiv:2507.04590)发布。该基准旨在解决现有多模态嵌入模型的局限性,通过引入覆盖多种模态和任务的评估框架,促进通用多模态嵌入模型的发展,并测试模型在真实场景中的泛化能力。

MMEB的评估框架与流程

MMEB采用对比学习方法训练和评估模型,将任务转化为嵌入生成过程。模型需为任意图像-文本组合产生固定维度的向量,并遵循任务指令。

  • 任务类别:原版MMEB包括四个元任务:分类、问题回答、检索和视觉定位。MMEB-V2扩展为九个元任务,新增视频检索、时序定位、视频分类、视频问题回答和视觉文档检索。
  • 数据集规模:原版包含36个数据集(20个训练集、16个评估集)。MMEB-V2扩展到78个任务。
  • 评估方法:数据集分为分布内和分布外两部分。模型在训练集上使用对比学习优化,在评估集上测量性能,包括保留数据集用于泛化测试。评估指标根据任务类型不同,包括准确率、召回率和平均精度等。

以下表格列出原版MMEB的四个元任务及其示例数据集:

元任务示例数据集数量描述示例
分类10使用嵌入向量进行图像或文本分类,如物体识别。
问题回答8通过嵌入匹配回答视觉相关问题。
检索12跨模态检索,如图像到文本或文本到图像。
视觉定位6定位图像中特定区域基于文本描述。

主流模型在MMEB上的结果与分析

在MMEB基准上,多个模型进行了测试。VLM2Vec框架基于Phi-3.5-V和LLaVA-1.6等模型,在原版MMEB的分布内和分布外数据集上,平均性能比现有基线模型(如CLIP和BLIP)提升10%至20%。MMEB-V2版本的VLM2Vec-V2在视频和文档检索任务上优于先前基线。

UniME模型在MMEB训练榜单上于2025年5月排名首位,使用336×336图像分辨率。UniME-V2基于Qwen2-VL-2B和7B模型,于2025年12月发布,在36个数据集上优于E5-V和VLM2Vec等基线,特别是在需要细粒度语义区分的任务中表现突出。该模型通过多模态大语言模型作为判别器,提升了嵌入的语义区分能力和鲁棒性,并在MMEB基准及检索任务上实现平均性能的领先。

其他模型如E5-V和GME在图像-文本任务上提供基线性能,但对视频和文档支持不足。分析显示,VLM2Vec和UniME的指令引导表示在任务特定性能上优于任务无关嵌入。分布外评估结果表明,这些模型在泛化方面有优势,但现有模型在非图像模态上的差距仍需填补。

MMEB的意义与展望

MMEB提供了一个从图像-文本扩展到视频和视觉文档的评估框架,用于测试多模态嵌入模型的适用性和泛化能力。该基准通过对比训练和多任务覆盖,展示了视觉语言模型转化为嵌入模型的潜力。未来,MMEB可进一步扩展任务类型,支持更多模态组合,以适应新兴应用需求。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码