GPQA

A Graduate-Level Google-Proof Q&A Benchmark

一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准

英文 难度:高难度

主要统计信息

问题数量

448

机构

CohereAI

类别

知识问答

评估指标

Accuracy

GPQA基准测试简介

研究生级别的 **Google 防查找问答基准测试**(即Graduate-Level Google-Proof Q&A Benchmark,简称 GPQA)是大型语言模型(LLM)面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限,提供一个严格的测试平台,不仅评估模型的事实记忆能力,还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA,涵盖它的起源、目的、组成部分,以及领先的大型语言模型在这个高要求基准测试中的表现。

GPQA 大模型得分排行榜

冠军
亚军
季军
其他排名

详细排名数据表格

模型简称 GPQA得分 发布机构 发布时间 参数规模(亿)
Grok 4 87.0 xAI Logo 2025-07-03 0.0
DeepSeek-V3-0324 68.4 DeepSeek-AI Logo 2025-03-24 6810.0
Pangu Embedded 68.0 华为 Logo 2025-06-30 70.0
Qwen3-8B 62.0 阿里巴巴 Logo 2025-04-28 80.0
DeepSeek-V3 59.1 DeepSeek-AI Logo 2024-12-26 6810.0
GLM-4-9B-Chat 58.5 智谱AI Logo 2024-06-05 90.0
Hunyuan-A13B-Instruct 49.12 腾讯AI实验室 Logo 2025-06-27 800.0
Mistral-Small-3.1-24B-Instruct-2503 44.42 MistralAI Logo 2025-03-17 240.0
Mistral-Small-3.2 44.22 MistralAI Logo 2025-06-20 240.0
GPT-4o mini 40.2 OpenAI Logo 2024-07-18 0.0
Claude 3.5 Haiku 37.5 Anthropic Logo 2024-10-22 0.0
Gemma 3 - 27B (IT) 36.83 Google Deep Mind Logo 2025-03-12 270.0
C4AI Aya Vision 32B 34.38 CohereAI Logo 2025-03-04 320.0
得分:
87.0
发布时间:
2025-07-03
参数规模(亿):
0.0
得分:
68.4
发布时间:
2025-03-24
参数规模(亿):
6810.0
得分:
68.0
发布时间:
2025-06-30
参数规模(亿):
70.0
得分:
62.0
发布时间:
2025-04-28
参数规模(亿):
80.0
得分:
59.1
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
58.5
发布时间:
2024-06-05
参数规模(亿):
90.0
得分:
49.12
发布时间:
2025-06-27
参数规模(亿):
800.0
得分:
44.42
发布时间:
2025-03-17
参数规模(亿):
240.0
得分:
44.22
发布时间:
2025-06-20
参数规模(亿):
240.0
得分:
40.2
发布时间:
2024-07-18
参数规模(亿):
0.0
得分:
37.5
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
36.83
发布时间:
2025-03-12
参数规模(亿):
270.0
得分:
34.38
发布时间:
2025-03-04
参数规模(亿):
320.0