MMMU

Name: Massive Multi-discipline Multimodal Understanding and Reasoning
Creator: 个人

大规模多学科多模态理解与推理基准（MMMU）于2023年11月推出，是一种用于评估多模态模型的复杂工具。该基准测试人工智能系统在需要大学水平学科知识和深思熟虑推理的任务上的能力。与之前的基准不同，MMMU强调跨多个领域的先进感知和推理，旨在衡量朝专家级人工智能通用智能（AGI）的进展。

更新于 2026年5月2日·2,694 次浏览

问题数量: 11500
发布机构: 个人
评测类别: 多模态理解
评测指标: Accuracy
支持语言: 英文
难度等级: 中等难度

简介

首个以大学水平学科知识为基础构建的多模态评测基准，旨在系统评估模型在跨学科、多模态场景下的复杂推理能力与专业知识应用水平。

MMMU评测最新大模型排名与完整榜单数据

查看 MMMU 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	GPT-5.2 思考水平 · 极高	85.90	2025-12-11	未知	闭源
	GPT-5.1 思考水平 · 高	85.40	2025-11-12	未知	闭源
	GPT-5.1 思考水平 · 高	85.40	2025-11-12	未知	闭源
4	Qwen3.5-397B-A17B 开启思考	85.00	2026-02-16	397亿	免费商用
5	GPT-5 思考水平 · 高	84.20	2025-08-07	未知	闭源
6	OpenAI o3 常规模式	82.90	2025-04-16	未知	闭源
7	OpenAI o3 开启思考	82.90	2025-04-16	未知	闭源
8	Qwen3.5-27B 开启思考	82.30	2026-02-25	270亿	免费商用
9	Gemini 2.5-Pro 开启思考	82.00	2025-06-05	未知	闭源
10	Opus 4.5 扩展思考	80.70	2025-11-25	未知	闭源
11	Gemini 3.1 Pro Preview 思考水平 · 高	80.50	2026-02-20	未知	闭源
12	GPT-5.2 思考水平 · 极高工具	80.40	2025-12-11	未知	闭源
13	Gemini-2.5-Pro-Preview-05-06 开启思考	79.60	2025-05-06	未知	闭源
14	Claude Sonnet 4.5 开启思考	77.80	2025-09-30	未知	闭源
15	Claude Opus 4.6 扩展思考工具	77.30	2026-02-05	未知	闭源
16	Claude Sonnet 4 常规模式	76.50	2025-05-23	未知	闭源
17	Step3 常规模式	74.20	2025-07-31	3210亿	免费商用
18	Claude Opus 4.6 扩展思考	73.90	2026-02-05	未知	闭源
19	Haiku 4.5 开启思考	73.20	2025-10-15	未知	闭源
20	Gemini 2.5 Flash-Lite-Preview-09-2025 常规模式	72.70	2025-09-25	未知	闭源
21	Qwen2.5-VL-72B-Instruct 常规模式	70.20	2025-01-28	720亿	免费商用
22	ERNIE-4.5-VL-424B-A47B-Base 开启思考	70.00	2025-06-30	4240亿	免费商用
23	Qwen3-VL-8B-Instruct 常规模式	69.60	2025-10-15	88亿	免费商用
24	GPT-5.4 nano 思考水平 · 极高工具	69.50	2026-03-17	未知	闭源
25	Qwen3-VL-4B-Instruct 常规模式	67.40	2025-10-15	40亿	免费商用
26	GPT-5.4 nano 思考水平 · 极高	66.10	2026-03-17	未知	闭源
27	Gemma 3 - 27B (IT) 常规模式	64.90	2025-03-12	270亿	免费商用
28	GPT-5-Nano 常规模式	57.60	2025-08-07	未知	闭源

MMMU评测最新大模型排名与完整榜单数据

MMMU 排名