MMEB:多模态嵌入基准评测,用于测试多模态向量检索和排序准确性的基准
MMEB(Massive Multimodal Embedding Benchmark)是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入,并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集,提供一个统一的评估平台,用于测试模型在分类、检索和其他任务上的性能。
加载中...
MMEB(Massive Multimodal Embedding Benchmark)是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入,并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集,提供一个统一的评估平台,用于测试模型在分类、检索和其他任务上的性能。
Follow DataLearner WeChat for the latest AI updates

MMEB Image V2版本的详细评测参考:https://www.datalearner.com/benchmarks/mmeb-v2-image
当前,多模态嵌入模型在处理自然图像时支持有限,这限制了其在AI代理、多模态搜索、推荐系统和检索增强生成等场景中的应用。与文本嵌入模型相比,多模态嵌入模型的发展进度较慢。现有的基准测试缺乏对视频和视觉文档等多样视觉形式的覆盖,导致评估结果无法全面反映模型的通用性。
MMEB由滑铁卢大学、销售力量研究(Salesforce Research)、加州大学圣巴巴拉分校和清华大学的研究人员开发。原版MMEB于2024年10月通过arXiv预印本(arXiv:2410.05160)发布,MMEB-V2于2025年7月通过arXiv预印本(arXiv:2507.04590)发布。该基准旨在解决现有多模态嵌入模型的局限性,通过引入覆盖多种模态和任务的评估框架,促进通用多模态嵌入模型的发展,并测试模型在真实场景中的泛化能力。
MMEB采用对比学习方法训练和评估模型,将任务转化为嵌入生成过程。模型需为任意图像-文本组合产生固定维度的向量,并遵循任务指令。
以下表格列出原版MMEB的四个元任务及其示例数据集:
在MMEB基准上,多个模型进行了测试。VLM2Vec框架基于Phi-3.5-V和LLaVA-1.6等模型,在原版MMEB的分布内和分布外数据集上,平均性能比现有基线模型(如CLIP和BLIP)提升10%至20%。MMEB-V2版本的VLM2Vec-V2在视频和文档检索任务上优于先前基线。
UniME模型在MMEB训练榜单上于2025年5月排名首位,使用336×336图像分辨率。UniME-V2基于Qwen2-VL-2B和7B模型,于2025年12月发布,在36个数据集上优于E5-V和VLM2Vec等基线,特别是在需要细粒度语义区分的任务中表现突出。该模型通过多模态大语言模型作为判别器,提升了嵌入的语义区分能力和鲁棒性,并在MMEB基准及检索任务上实现平均性能的领先。
其他模型如E5-V和GME在图像-文本任务上提供基线性能,但对视频和文档支持不足。分析显示,VLM2Vec和UniME的指令引导表示在任务特定性能上优于任务无关嵌入。分布外评估结果表明,这些模型在泛化方面有优势,但现有模型在非图像模态上的差距仍需填补。
MMEB提供了一个从图像-文本扩展到视频和视觉文档的评估框架,用于测试多模态嵌入模型的适用性和泛化能力。该基准通过对比训练和多任务覆盖,展示了视觉语言模型转化为嵌入模型的潜力。未来,MMEB可进一步扩展任务类型,支持更多模态组合,以适应新兴应用需求。