MMEB：多模态嵌入基准评测，用于测试多模态向量检索和排序准确性的基准

MMEB（Massive Multimodal Embedding Benchmark）是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入，并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集，提供一个统一的评估平台，用于测试模型在分类、检索和其他任务上的性能。

MMEB Image V2版本的详细评测参考：https://www.datalearner.com/benchmarks/mmeb-v2-image

多模态嵌入评测面临的挑战

当前，多模态嵌入模型在处理自然图像时支持有限，这限制了其在AI代理、多模态搜索、推荐系统和检索增强生成等场景中的应用。与文本嵌入模型相比，多模态嵌入模型的发展进度较慢。现有的基准测试缺乏对视频和视觉文档等多样视觉形式的覆盖，导致评估结果无法全面反映模型的通用性。

MMEB基准的基本信息与目标

MMEB由滑铁卢大学、销售力量研究（Salesforce Research）、加州大学圣巴巴拉分校和清华大学的研究人员开发。原版MMEB于2024年10月通过arXiv预印本（arXiv:2410.05160）发布，MMEB-V2于2025年7月通过arXiv预印本（arXiv:2507.04590）发布。该基准旨在解决现有多模态嵌入模型的局限性，通过引入覆盖多种模态和任务的评估框架，促进通用多模态嵌入模型的发展，并测试模型在真实场景中的泛化能力。

MMEB的评估框架与流程

MMEB采用对比学习方法训练和评估模型，将任务转化为嵌入生成过程。模型需为任意图像-文本组合产生固定维度的向量，并遵循任务指令。

任务类别：原版MMEB包括四个元任务：分类、问题回答、检索和视觉定位。MMEB-V2扩展为九个元任务，新增视频检索、时序定位、视频分类、视频问题回答和视觉文档检索。
数据集规模：原版包含36个数据集（20个训练集、16个评估集）。MMEB-V2扩展到78个任务。
评估方法：数据集分为分布内和分布外两部分。模型在训练集上使用对比学习优化，在评估集上测量性能，包括保留数据集用于泛化测试。评估指标根据任务类型不同，包括准确率、召回率和平均精度等。

以下表格列出原版MMEB的四个元任务及其示例数据集：

元任务	示例数据集数量	描述示例
分类	10	使用嵌入向量进行图像或文本分类，如物体识别。
问题回答	8	通过嵌入匹配回答视觉相关问题。
检索	12	跨模态检索，如图像到文本或文本到图像。
视觉定位	6	定位图像中特定区域基于文本描述。

主流模型在MMEB上的结果与分析

在MMEB基准上，多个模型进行了测试。VLM2Vec框架基于Phi-3.5-V和LLaVA-1.6等模型，在原版MMEB的分布内和分布外数据集上，平均性能比现有基线模型（如CLIP和BLIP）提升10%至20%。MMEB-V2版本的VLM2Vec-V2在视频和文档检索任务上优于先前基线。

UniME模型在MMEB训练榜单上于2025年5月排名首位，使用336×336图像分辨率。UniME-V2基于Qwen2-VL-2B和7B模型，于2025年12月发布，在36个数据集上优于E5-V和VLM2Vec等基线，特别是在需要细粒度语义区分的任务中表现突出。该模型通过多模态大语言模型作为判别器，提升了嵌入的语义区分能力和鲁棒性，并在MMEB基准及检索任务上实现平均性能的领先。

其他模型如E5-V和GME在图像-文本任务上提供基线性能，但对视频和文档支持不足。分析显示，VLM2Vec和UniME的指令引导表示在任务特定性能上优于任务无关嵌入。分布外评估结果表明，这些模型在泛化方面有优势，但现有模型在非图像模态上的差距仍需填补。

MMEB的意义与展望

MMEB提供了一个从图像-文本扩展到视频和视觉文档的评估框架，用于测试多模态嵌入模型的适用性和泛化能力。该基准通过对比训练和多任务覆盖，展示了视觉语言模型转化为嵌入模型的潜力。未来，MMEB可进一步扩展任务类型，支持更多模态组合，以适应新兴应用需求。

多模态嵌入评测面临的挑战

MMEB基准的基本信息与目标

MMEB的评估框架与流程

主流模型在MMEB上的结果与分析

MMEB的意义与展望

DataLearner WeChat