GPQA Diamond:评估专家级推理能力的问答基准

标签:#GPQA##GPQADiamond##大模型评测##大模型评测基准##评测基准# 时间:2025/03/20 17:34:13 作者:小木

通用人工智能(AGI)的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布,其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。

大模型GPQA Diamond介绍

GPQA Diamond是GPQA系列中最高质量的评测数据,包含198条结果。而GPQA标准版则有448条数据,当前最新的大模型基本都是以测试GPQA Diamond为主。GPQA系列有个最大的特点是精心设计,无法使用Google解决。
关于GPQA的介绍可以参考DataLearnerAI的博客介绍:https://www.datalearner.com/blog/1051742281141979

[TOC]

GPQA Diamond 简介

GPQA Diamond旨在评估模型解决需要专家级别理解和推理能力的问题。与传统问答数据集侧重于事实检索或模式识别不同,GPQA Diamond 考察模型对复杂概念的理解、知识的应用和多步骤推理能力,因此,可以作为AGI更有意义的评估标准。该数据集聚焦于需要专家级理解和推理能力的问题。

GPQA Diamond 数据集构建

GPQA Diamond 数据集的构建过程严谨,旨在确保问题具有挑战性和代表性:

问题来源:数据集中的问题主要来自公开可用的研究生级别或竞赛级别问题。主要覆盖了物理、化学、生物学和经济学等STEM领域。

专家验证:所有问题及其答案都经过领域专家的验证,确保准确性和完整性,以保证基准的可靠性。

对抗性构建:问题设计旨在防止模型依赖表面模式或记忆。经过设计使得简单的启发式方法或浅层理解不足以获得正确答案。

数据规模:GPQA共包含4485道问题,根据问题难度划分成Bronze, Silver, Gold, Platinum和Diamond五个等级。GPQA Diamond数据集是其中难度最高的子集,包含1556道问题,所有问题都有人工注释的正确答案。

评估方法

GPQA Diamond 评估使用精确匹配准确率作为主要指标。模型需要生成准确且完整的答案才能被认为是正确的。为更全面地评估模型能力,评估过程可能还包括:

人类评估: 人类专家会对模型的答案进行评估,以提供对模型推理质量和解释能力的理解。

置信度校准: 评估模型预测的置信度与其准确率是否一致,良好的模型应对其正确答案更有信心。

消融研究: 为理解模型中不同组件的作用,可以进行消融研究,移除模型的部分组件,并观察其对性能的影响。

当前主流模型的评估结果 (基于论文数据)
根据已发表的论文数据,目前的主流模型在 GPQA Diamond 基准上的表现如下:

数据集表现:论文中测试了多个开源和闭源模型,包括GPT-3.5, GPT-4, Claude 等。

主要结果:GPT-4在没有外部工具帮助的情况下,在GPQA Diamond上的准确率约为40%。通过使用代码解释器(Code Interpreter)等工具,GPT-4的性能可以进一步提升到接近50%。其他模型,如GPT-3.5和Claude,在该数据集上的表现则远低于GPT-4。

局限性:即使是GPT-4,在GPQA Diamond数据集上的表现仍然远低于人类专家。这表明,现有模型在专家级别的推理能力上仍有很大差距。

结论

GPQA Diamond 基准通过提供具有挑战性的专家级问题集,帮助研究人员识别当前模型的局限性,并开发更强大的 AGI 系统。GPQA Diamond 为评估模型的推理和领域专业知识能力提供了一个有价值的工具。当前主流模型在 GPQA Diamond 上仍面临挑战,但随着研究的进步和新技术的出现,我们有望在未来看到显著的改进。希望这篇文章能够为您提供更全面、准确的关于 GPQA Diamond 的介绍。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送