MMLU

Name: Massive Multitask Language Understanding
Creator: 个人

更新于 2026年7月18日·5,987 次浏览

问题数量: 15000
发布机构: 个人
评测类别: 综合评估
评测指标: Accuracy
支持语言: 英文
难度等级: 基础

简介

一个涵盖 57 个主题的多项选择题基准，用于评估大规模语言模型的知识和推理能力。

MMLU评测最新大模型排名与完整榜单数据

查看 MMLU 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	DeepSeek-V3.1 开启思考	93.40	2025-08-20	6710亿	免费商用
	OpenAI o4 - mini 开启思考	93.00	2025-04-16	未知	闭源
	Gemini 3.1 Pro Preview 思考水平·高	92.60	2026-02-20	未知	闭源
4	OpenAI o1 常规模式	91.80	2024-12-05	未知	闭源
5	DeepSeek-V3.1 常规模式	91.80	2025-08-20	6710亿	免费商用
6	Opus 4.7 常规模式	91.50	2026-04-16	未知	闭源
7	Claude Opus 4.6 扩展思考	91.05	2026-02-05	未知	闭源
8	DeepSeek-R1 常规模式	90.80	2025-01-20	6710亿	免费商用
9	GPT-4.1 常规模式	90.20	2025-04-14	未知	闭源
10	GPT OSS 120B 开启思考	90.00	2025-08-06	117亿	免费商用
11	GPT-5.2 思考水平·极高	89.60	2025-12-11	未知	闭源
12	Hunyuan-TurboS 常规模式	89.50	2025-03-10	未知	闭源
13	Kimi K2 常规模式	89.50	2025-07-11	10000亿	免费商用
14	Pangu Pro MoE 常规模式	89.30	2025-06-30	719亿	免费商用
15	GPT-4o 常规模式	88.70	2024-05-13	未知	闭源
16	Llama3.1-405B Instruct 常规模式	88.60	2024-07-23	4050亿	免费商用
17	DeepSeek-V3 常规模式	88.50	2024-12-26	6810亿	免费商用
18	Claude 3.5 Sonnet 常规模式	88.30	2024-06-21	未知	闭源
19	Claude 3.5 Sonnet New 常规模式	88.30	2024-10-22	未知	闭源
20	Hunyuan-A13B-Instruct 常规模式	88.17	2025-06-27	800亿	免费商用
21	Qwen2.5-Max 常规模式	87.90	2025-01-28	未知	闭源
22	Grok 2 常规模式	87.50	2024-08-13	2690亿	免费商用
23	GPT-4.1 mini 常规模式	87.50	2025-04-14	未知	闭源
24	Kimi k1.5 (Short-CoT) 常规模式	87.40	2025-01-22	未知	闭源
25	Gemini 1.5 Pro 常规模式	87.10	2024-02-15	未知	闭源
26	OpenAI o3-mini (high) 常规模式	86.90	2025-01-31	未知	闭源
27	Claude3-Opus 常规模式	86.80	2024-03-04	未知	闭源
28	Gemini 2.0 Pro Experimental 常规模式	86.50	2025-02-05	未知	闭源
29	DeepSeek-V3-0324 常规模式	86.50	2025-03-24	6710亿	免费商用
30	ERNIE-4.5-300B-A47B 常规模式	86.50	2025-06-30	3000亿	免费商用

继续滚动可加载剩余 36 条

MMLU评测最新大模型排名与完整榜单数据

MMLU 排名