MMEB:多模态嵌入基准评测,用于测试多模态向量检索和排序准确性的基准
MMEB(Massive Multimodal Embedding Benchmark)是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入,并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集,提供一个统一的评估平台,用于测试模型在分类、检索和其他任务上的性能。
MMEB Image V2版本的详细评测参考:https://www.datalearner.com/benchmarks/mmeb-v2-image
多模态嵌入评测面临的挑战
当前,多模态嵌入模型在处理自然图像时支持有限,这限制了其在AI代理、多模态搜索、推荐系统和检索增强生成等场景中的应用。与文本嵌入模型相比,多模态嵌入模型的发展进度较慢。现有的基准测试缺乏对视频和视觉文档等多样视觉形式的覆盖,导致评估结果无法全面反映模型的通用性。
MMEB基准的基本信息与目标
MMEB由滑铁卢大学、销售力量研究(Salesforce Research)、加州大学圣巴巴拉分校和清华大学的研究人员开发。原版MMEB于2024年10月通过arXiv预印本(arXiv:2410.05160)发布,MMEB-V2于2025年7月通过arXiv预印本(arXiv:2507.04590)发布。该基准旨在解决现有多模态嵌入模型的局限性,通过引入覆盖多种模态和任务的评估框架,促进通用多模态嵌入模型的发展,并测试模型在真实场景中的泛化能力。
