DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 联系我们

© 2025 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 大模型评测基准列表
  2. /
  3. MMMU

MMMU 评测基准详情

大规模多学科多模态理解与推理基准(MMMU)于2023年11月推出,是一种用于评估多模态模型的复杂工具。该基准测试人工智能系统在需要大学水平学科知识和深思熟虑推理的任务上的能力。与之前的基准不同,MMMU强调跨多个领域的先进感知和推理,旨在衡量朝专家级人工智能通用智能(AGI)的进展。

Views241
问题数量
11500
发布机构
个人
评测类别
多模态理解
评测指标
Accuracy
支持语言
英文
难度等级
中等难度

简介

首个以大学水平学科知识为基础构建的多模态评测基准,旨在系统评估模型在跨学科、多模态场景下的复杂推理能力与专业知识应用水平。

相关资源

查看原始论文
阅读学术论文原文
获取数据集
下载评测数据集
访问官网
浏览项目官方网站
DataLearner 介绍
中文详细解读

MMMU 大模型得分排行榜

数据来源:DataLearnerAI

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

详细评测数据

当前榜单暂无并行思考结果

MMMU详细排名数据表格

排名模型
1
GPT-5.1high
85.42025-11-12未知
2
GPT-5high
84.22025-08-07未知
3
OpenAI o3
82.92025-04-16未知
4
OpenAI o3thinking
82.92025-04-16未知
5
Gemini 2.5-Prothinking
822025-06-05未知
6
Claude Opus 4.5thinking
80.72025-11-25未知
7
Gemini-2.5-Pro-Preview-05-06thinking
79.62025-05-06未知
8
Claude Sonnet 4.5thinking
77.82025-09-30未知
9
Claude Sonnet 4
76.52025-05-23未知
10
Step3
74.22025-07-313210
11
Haiku 4.5thinking
73.22025-10-15未知
12
Gemini 2.5 Flash-Lite-Preview-09-2025
72.72025-09-25未知
13
Qwen2.5-VL-72B-Instruct
70.22025-01-28720
14
ERNIE-4.5-VL-424B-A47B-Basethinking
702025-06-304240
15
Qwen3-VL-8B-Instruct
69.62025-10-1588
16
Qwen3-VL-4B-Instruct
67.42025-10-1540
17
GPT-5-Nano
57.62025-08-07未知