大规模多学科多模态理解与推理基准(MMMU)于2023年11月推出,是一种用于评估多模态模型的复杂工具。该基准测试人工智能系统在需要大学水平学科知识和深思熟虑推理的任务上的能力。与之前的基准不同,MMMU强调跨多个领域的先进感知和推理,旨在衡量朝专家级人工智能通用智能(AGI)的进展。
首个以大学水平学科知识为基础构建的多模态评测基准,旨在系统评估模型在跨学科、多模态场景下的复杂推理能力与专业知识应用水平。
数据来源:DataLearnerAI
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | GPT-5.1high | 85.4 | 2025-11-12 | 未知 |
| 2 | GPT-5high | 84.2 | 2025-08-07 | 未知 |
| 3 | 82.9 | 2025-04-16 | 未知 | |
| 4 | OpenAI o3thinking | 82.9 | 2025-04-16 | 未知 |
| 5 | Gemini 2.5-Prothinking | 82 | 2025-06-05 | 未知 |
| 6 | Claude Opus 4.5thinking | 80.7 | 2025-11-25 | 未知 |
| 7 | Gemini-2.5-Pro-Preview-05-06thinking | 79.6 | 2025-05-06 | 未知 |
| 8 | Claude Sonnet 4.5thinking | 77.8 | 2025-09-30 | 未知 |
| 9 | 76.5 | 2025-05-23 | 未知 | |
| 10 | 74.2 | 2025-07-31 | 3210 | |
| 11 | Haiku 4.5thinking | 73.2 | 2025-10-15 | 未知 |
| 12 | 72.7 | 2025-09-25 | 未知 | |
| 13 | 70.2 | 2025-01-28 | 720 | |
| 14 | ERNIE-4.5-VL-424B-A47B-Basethinking | 70 | 2025-06-30 | 4240 |
| 15 | 69.6 | 2025-10-15 | 88 | |
| 16 | 67.4 | 2025-10-15 | 40 | |
| 17 | 57.6 | 2025-08-07 | 未知 |