大模型评测的新标杆：超高难度的“Humanity’s Last Exam”（HLE）介绍

近年来，大语言模型（如GPT-4、Claude、Gemini）的能力突飞猛进，但它们是否真的接近人类专家的水平？答案可能令人意外。以广泛使用的评测基准MMLU（大规模多任务语言理解）为例，GPT-4在2023年首次发布时，其准确率仅为86.4%，但到了2025年，最新的GPT-4o在MMLU上的准确率已超过95%（图1）。这种“评测饱和”现象意味着，现有基准已无法区分顶尖模型的真实能力——就像一场考试，如果所有学生都能考满分，考试就失去了意义。为此，Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准，旨在成为大模型“闭卷学术评测的终极考验”。

[TOC]

Humanity’s Last Exam评测简介

HLE全称是Humanity’s Last Exam，它的诞生正是为了解决当前评测基准无法有效区分大模型能力的现象。当前模型的进步速度远超评测基准的更新频率，导致研究者无法精准衡量模型在前沿学术领域的表现。例如，在数学、生物化学或冷门语言学问题上，模型的真实能力可能被高估。

而HLE的三大设计目标直击痛点：

覆盖人类知识的前沿：问题需达到研究生或专家水平，例如“计算对称群Σ₄的∞-范畴下的自然余变换数量”。
抗检索性：所有问题无法通过简单的互联网搜索解决，例如“根据藏传希伯来语发音传统划分《诗篇》104:7的闭音节”。
多模态与自动化评分：10%的问题结合文本与图像（如古文字翻译、化学反应机理图），80%为精确匹配答案的简答题，20%为五选一以上的选择题。

HLE的独特设计：如何构建“人类最后的考试”？

HLE的题目收集自全球的贡献。当前包含的3,000道题目来自全球50个国家、500多所机构的近千名专家，包括数学家、化学家、语言学家等。为确保质量，每道题需通过三重筛选：

自动过滤：用GPT-4o、Claude 3.5等模型测试，只有所有模型均答错的问题才能进入下一轮。
同行评审：首轮由至少3名同领域专家评分，淘汰模糊或易检索的问题（如“量子力学的基本假设”这类教科书问题）。
终审委员会：由资深研究者组成的团队最终批准，重点关注问题的原创性和学科深度。

以下是HLE里面的一些题目示例，让我们感受以下HLE的难度。

HLE数学题目示例：

“设F和G为Σ₄与Σ₇对称群的∞-范畴函子，计算自然余变换的数量。”
（答案：0。需理解范畴论中的余端（coend）概念，并推导对称群的结构。）

HLE化学题目示例：

“热周环反应分三步：两步电环化反应和一步环加成。指出每步反应的电子数和旋转方式。”
（答案：Step 1: [4]-dis；Step 2: [6]-con；Step 3: [4+2]。需掌握周环反应的前线分子轨道理论。）

HLE语言学题目示例：

“根据Geoffrey Khan的研究，标注《诗篇》104:7的闭音节（基于藏传希伯来语发音传统）。”
（答案：需分析音节尾辅音与非元音化的shewa符号。）

HLE大模型评测基准和其它评测基准的对比

这里我们总结一下HLE与MMLU等传统评测基准的差异：

维度	传统基准（如MMLU）	HLE	对比说明
问题来源	教科书、公开考试题	专家原创，含未发表研究成果	HLE的问题更贴近真实科研场景
平均难度	本科或通用知识水平	研究生/专家级	HLE的数学题难度接近国际奥赛决赛题
抗检索性	部分问题可通过搜索引擎解决	所有问题无法通过简单检索解决	HLE的题目设计需原创逻辑推导
学科覆盖	57个学科	100+学科，含冷门领域（如古文字学）	HLE测试跨学科整合能力
模型表现	GPT-4准确率95%+	GPT-4o准确率仅3.3%	差距达30倍以上（表1）

从这些结果可以看到，HLE的题目难度很高，覆盖范围也更广泛。这意味着当前大模型很难轻易通过“模仿”等方法解决。

当前主流模型在HLE上的得分情况

论文对7款前沿模型进行零样本（zero-shot）测试（无示例提示），结果令人震惊，当前模型准确率都很低。如下表：

Model	Accuracy(%)↑	CalibrationError(%)↓
GPT-4O	3.3	92.5
GROK2	3.8	93.2
CLAUDE3.5SONNET	4.3	88.9
GEMINI1.5PRO	5.0	93.1
GEMINI2.0FLASHTHINKING	6.2	93.9
O1	9.1	93.4
DEEPSEEK-R1∗	9.4	81.8

从上表可以看到：

准确率极低：所有模型在HLE上的平均准确率仅为3.3%~9.4%。表现最好的DeepSeek-R1（非多模态模型）仅9.4%，而GPT-4o仅3.3%。
校准误差高：模型的“自信度”与实际正确率严重脱节。例如，GPT-4o的校准误差高达92.5%，意味着它在答错时仍以90%以上的信心输出错误答案。
推理成本高昂：需长文本推理的模型（如GPT-4o）生成答案的平均token数是非推理模型的3倍以上（图4），计算效率低下。

HLE揭示了模型的哪些短板？

根据HLE的测试结果，我们也可以看到当前主流的大模型有如下一些问题：

知识深度不足

模型在需要纵向专业知识的问题上表现极差。例如，涉及∞-范畴的数学题要求掌握高阶代数拓扑，而现有模型的预训练数据可能仅覆盖基础范畴论概念。论文发现，模型常混淆“自然变换”与“自然余变换”，暴露出符号逻辑推理的缺陷。

跨学科整合能力缺失

HLE的化学题常需结合有机反应机理与量子化学计算（如电环化反应的轨道对称性）。模型虽能分步解释，却无法串联多学科知识推导最终答案。这反映出现有架构缺乏系统性推理框架。

过度自信的幻觉风险

高校准误差（如GPT-4o的92.5%）表明，模型在未知领域倾向于“编造答案”而非承认无知。例如，在古文字学问题中，模型会生成看似合理的音节划分，但与学术共识完全不符。这对医疗诊断、法律咨询等场景构成重大风险。

多模态理解局限

尽管10%的问题包含图像（如古碑文拓片），模型的表现并未显著优于纯文本问题。例如，在结合化学结构图的反应机理题中，模型常忽略图像中的立体化学信息，导致错误判断。