大模型多模态评测基准MMMU介绍
1,171 阅读
大模型多模态评测基准MMMU(大规模多学科多模态理解和推理基准)是一项旨在评估多模态人工智能模型在复杂跨学科任务中综合能力的测试工具。

1. 设计背景与目标
MMMU的提出源于现有多模态基准(如VQA、OK-VQA等)的局限性,这些基准往往局限于常识性任务或单一学科,难以评估模型对专业领域知识和深度推理的能力。MMMU的目标是模拟大学水平的跨学科考试场景,要求模型具备人类专家级的图文理解和推理能力,从而推动多模态模型向更接近通用人工智能(AGI)的方向发展。
2. 核心原理与结构
数据集构成
- 覆盖领域:涵盖六大核心学科(艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程),细分30个科目和183个子领域,例如物理学中的电磁学、化学中的有机合成等。
- 问题类型:包含1.15万个多模态问题,每个问题均以图文混合形式呈现,例如图表、化学结构图、地图等30种图像类型,并搭配文本描述或问题选项。问题来源包括大学考试题、教科书及专业测验。
- 输入模式:支持文本与图像混合输入,部分问题需同时解析图像中的视觉信息和文本内容才能正确回答,例如通过图表推导物理定律或通过分子结构图判断化学反应路径。
