Simple Bench：一个专为“常识”而生的大模型评测基准

随着大型语言模型（LLM）的飞速发展，如何准确、全面地评估它们的能力成为了一个日益重要的课题。在众多评测基准中，Simple Bench 以其独特的定位脱颖而出，它专注于检验模型在日常人类推理方面的能力，而在这些方面，当前最先进的模型往往还不如普通人。本文将详细介绍 Simple Bench 评测基准，探讨其出现的背景、设计理念、评测流程以及当前主流模型的表现。

1. 大模型评测的困境与 Simple Bench 的价值

在深入了解 Simple Bench 之前，我们有必要先认识到当前大模型评测所面临的普遍性难题。这些挑战使得单一或传统的评测方法难以全面反映模型的真实能力，也凸显了像 Simple Bench 这样新型评测基准的必要性。

当前的评测难点主要包括：

数据污染 (Data Contamination)：许多评测基准的数据集是公开的，这导致模型在训练过程中可能已经“见过”测试题目，从而影响评测结果的公正性。
评测指标的局限性：像准确率这样的传统指标，虽然直观，但往往无法捕捉人类语言的复杂性和多样性。例如，一个语义相同但表述不同的答案可能会被判为错误。
缺乏可复现性 (Replicability)：尤其是对于闭源模型，其版本会不断更新迭代，导致在不同时间点进行相同的评测可能会得到不同的结果，这给科学研究带来了挑战。
“刷榜”现象 (Overfitting to Benchmarks)：随着评测基准的普及，一些模型可能会被专门针对性地优化，以便在特定测试中取得高分，但这并不代表其通用能力的真正提升。
对复杂推理能力的考察不足：许多现有评测更侧重于知识检索或简单的语言任务，而对需要多步推理、常识理解和应对“陷阱问题”的能力考察不足。

正是在这样的背景下，Simple Bench 应运而生。它明确提出，其目标是建立一个在非专业化（高中）知识水平的人类表现优于顶级模型的文本评测基准。这一定位直接回应了当前大模型在“常识”和“日常推理”方面的短板，为我们提供了一个独特的视角来审视和推动大模型技术的发展。

2. Simple Bench 的发布与目标

Simple Bench 由一个名为“SimpleBench Team”的团队推出。该评测基准的设计初衷，是为了评估大型语言模型在处理那些对普通人来说很简单，但对机器而言却充满挑战的逻辑推理任务。它强调的不是模型记忆知识的广度，而是其理解和运用常识进行推理的深度。

与许多追求极限性能和专业知识的评测不同，Simple Bench 关注的是模型的“日常人类推理”能力。其核心目标在于揭示当前前沿模型所依赖的记忆化知识和近似推理检索，在面对一些基础问题时仍然是不足的。通过这种方式，Simple Bench 旨在推动研究人员开发出更智能、更具适应性、更能进行类似人类推理的语言模型。

3. 评测流程、问题设计与数量

Simple Bench 是一个多项选择的文本评测基准，包含了超过200个精心设计的问题。这些问题旨在避免简单的信息检索，而是需要模型进行真正的推理。

其评测流程和设计思路具有以下特点：

问题类型：问题主要涵盖三个领域：
- 时空推理 (Spatio-temporal reasoning)：考察模型对时间、空间关系的理解和推理能力。
- 社交智能 (Social intelligence)：评估模型对社交场景、人际关系的理解。
- 语言对抗性鲁棒性 (Linguistic adversarial robustness)：也被称为“陷阱问题” (trick questions)，专门设计用来测试模型是否会因为问题的表述方式而产生误解。
手工制作：所有问题均为手工创建，以确保其独创性和针对性，有效避免了从现有数据集中被污染的可能性。
多项选择题形式：采用多项选择题的形式，便于进行标准化和自动化的评分。
人类基线对比：Simple Bench 的一个显著特点是设立了“人类基线”作为对比。在一项由9名非专业知识背景的参与者组成的小样本测试中，人类的平均得分高达83.7%，远超所有参与测试的大模型。

例如，其中一个问题示例是：“贝丝在第一分钟开始时将四个完整的冰块放入煎锅中，然后在第二分钟开始时放入五个，在第三分钟开始时又放入了一些，但在第四分钟没有放。煎锅中最多有多少个完整的冰块？” 正确答案需要模型理解冰块会融化这一常识，而不是简单地将数字相加。

4. 主流模型在 Simple Bench 上的表现

Simple Bench 的排行榜清晰地展示了当前主流大型模型在“常识”推理方面的座次。值得注意的是，即使是表现最好的模型，其得分也与人类基线存在显著差距。

根据其官方网站公布的排行榜，部分主流模型的表现如下（请注意，模型排名和得分会随时间更新）：

排名	模型	得分 (AVG@5)	机构
-	人类基线*	83.7%	-
1	Gemini 2.5 Pro (06-05)	62.4%	Google
2	Grok 4	60.5%	xAI
3	Claude 4.1 Opus	60.0%	Anthropic
4	Claude 4 Opus (thinking)	58.8%	Anthropic
5	o3 (high)	53.1%	OpenAI
6	Gemini 2.5 Pro (03-25)	51.6%	Google
7	Claude 3.7 Sonnet (thinking)	46.4%	Anthropic
8	Claude 4 Sonnet (thinking)	45.5%	Anthropic
9	Claude 3.7 Sonnet	44.9%	Anthropic
10	o1-preview	41.7%	OpenAI

数据来源于 Simple Bench 官方网站，截至查询时点

从这个排行榜可以看出，即便是像 Gemini 2.5 Pro 和 Claude 4.1 Opus 这样的顶级模型，在这些看似简单的常识问题面前也远未达到人类的水平。这印证了 Simple Bench 的核心观点：当前的大模型在基础推理能力上仍有很大的提升空间。

5. 总结

Simple Bench 作为一个独特的大模型评测基准，为我们提供了一个宝贵的工具和视角。它避开了对海量知识的直接考察，转而专注于评估模型在日常情景下的推理能力——一个长期以来被认为是人工智能领域核心挑战之一的领域。

通过精心设计的时空推理、社交智能和语言陷阱问题，Simple Bench 有效地揭示了当前最先进模型与人类在常识理解上的差距。尽管模型的得分在不断提升，但与人类基线之间存在的显著鸿沟提醒我们，通往更通用、更可靠的人工智能之路，不仅仅是扩大模型规模和训练数据，更需要在核心的推理和理解能力上取得突破。Simple Bench 的存在，无疑将持续激励和引导着该领域的研究向着更智能、更接近人类常识的方向发展。

1. 大模型评测的困境与 Simple Bench 的价值

2. Simple Bench 的发布与目标

3. 评测流程、问题设计与数量

4. 主流模型在 Simple Bench 上的表现

5. 总结

DataLearner WeChat