GPQA: 可以防止使用谷歌作弊的研究生级别难度的大模型专业能力评测基准（A Graduate-Level Google-Proof Q&A Benchmark）

研究生级别的 Google 防查找问答基准测试（即Graduate-Level Google-Proof Q&A Benchmark，简称 GPQA）是大型语言模型（LLM）面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限，提供一个严格的测试平台，不仅评估模型的事实记忆能力，还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA，涵盖它的起源、目的、组成部分，以及领先的大型语言模型在这个高要求基准测试中的表现。

GPQA是由纽约大学联合Anthropic一起推出的非常具有挑战性的大模型评测基准

GPQA 由一个研究团队开发，其中包括来自 纽约大学（NYU）、Cohere、Anthropic 等机构的贡献者，旨在创建一个能够评估大型语言模型稳健性和局限性的基准测试。发布 GPQA 的动机有两个主要方面：

测试大型语言模型处理 生物学、物理学和化学 等研究生级别复杂问题的能力；
推动 可扩展监督机制 的研究——这些方法使人类专家能够高效地监督和验证人工智能的输出。

与许多关注通用知识的基准测试不同，GPQA 强调“Google 防查找”问题。这些问题经过精心设计，难以通过简单的网络搜索回答，要求模型具备真正的推理能力和内在知识。这种设计使 GPQA 成为衡量大型语言模型在特定领域深入理解能力的工具，是评估人工智能在高风险应用中的可靠性和指导未来发展的关键资源。

GPQA基准测试的组成部分

GPQA 包含 448 个多选题，每个问题提供四个答案选项，覆盖 生物学、物理学和化学 领域。这些问题由领域专家创建，质量高且难度极大，随机猜测的基准准确率为 25%。该基准测试分为三个变体：

GPQA 扩展版：包括 546 个问题，提供更广泛的评估范围。
GPQA 标准版：由 448 个问题 组成，作为标准集。
GPQA Diamond版本：包含 198 个问题，代表最具挑战性的子集。

GPQA Diamond 子集尤其严格，博士级别的专家仅能达到 65% 的准确率，而具备网络访问权限的熟练非专家仅能达到 34%。这凸显了 GPQA 在测试高级推理能力方面的有效性。关于GPQA Diamond的评测基准以及当前大模型的评测结果介绍参考DataLearnerAI的大模型评测基准介绍页面：https://www.datalearner.com/ai-models/llm-benchmark-tests/32

相比较GPQA标准版，GPQA Diamond更加被关注，最新的很多模型都是发布GPQA Diamond的基准测试结果。

GPQA 的评估方法包括：

zero-shot：模型在没有先前示例的情况下回答问题。
few-shot：模型接收少量示例问题和答案。
思维链（CoT）：模型被提示逐步推理。
搜索变体：模型可以使用外部工具，但“Google 防查找”设计限制了这种优势。

这些方法确保了对大型语言模型推理过程和适应性的全面评估。

领先 LLM 的表现

GPQA 已被证明即使对最先进的大型语言模型来说也是一个巨大的挑战。最新的评估结果显示了一系列表现，反映了人工智能能力的进步和持续的差距：

Anthropic 的 Claude 3.5 Sonnet：在钻石版子集上以 59.4% 的zero-shot 思维链准确率领先。
Google 的 Gemini 2.0：以 62.1% 的总分最高。
xAI 的 Grok-2：记录了 56.0% 的准确率。
OpenAI 的 GPT-4o：之前得分为 53.6%，但较新的模型已超越它。

相比之下，拥有博士学位的人类专家达到 65% 的准确率，而早期的 GPT-4 基线仅达到 39%。这些结果表明，尽管大型语言模型正在进步——有些在钻石版子集上接近人类专家水平——但它们仍未完全掌握 GPQA 的挑战。基准测试对科学推理而非死记硬背的关注突显了其难度和相关性。

关于不同模型在GPQA上的详细评测结果可以参考DataLearnerAI的GPQA大模型评测基准排行榜：https://www.datalearner.com/ai-models/llm-benchmark-tests/41

GPQA 的重要性

GPQA 的价值在于其测试 深度理解和推理能力 的独特能力，使其在大型语言模型基准测试中脱颖而出。通过针对研究生级别的科学领域，它提供了模型在准确性至关重要的专业领域是否可信的见解。此外，其“Google 防查找”特性确保表现反映了模型的内在能力，而不是其检索外部信息的能力。

该基准测试还支持 可扩展监督研究，这是一个随着人工智能系统能力增强而变得至关重要的领域。通过提出挑战人工智能和熟练人类的问题，GPQA 帮助开发确保人工智能输出保持可靠和可验证的方法，弥合机器和人类专业知识之间的差距。

GPQA 基准测试是评估大型语言模型的一个里程碑，提供了一个艰难但必要的标准来衡量其推理和领域特定能力。由来自 NYU 等机构的研究人员开发，它服务于双重目的：测试大型语言模型的极限并促进人工智能监督的进步。凭借其 448 个精心设计的问题 和极具挑战性的 GPQA Diamond，GPQA 揭示了 Claude 3.5 Sonnet 和 Gemini 2.0 等模型正在取得进展——得分高达 62.1%——但尚未完全与人类专家的表现相匹配。

随着大型语言模型的不断发展，GPQA 将继续是评估其进步的重要工具，确保它们不仅强大，而且在现实世界中可靠。目前，它证明了在追求真正智能人工智能系统过程中取得的成就和持续的挑战。

GPQA是由纽约大学联合Anthropic一起推出的非常具有挑战性的大模型评测基准

GPQA基准测试的组成部分

领先 LLM 的表现

GPQA 的重要性

DataLearner WeChat