GPQA

研究生级别的 **Google 防查找问答基准测试**（即Graduate-Level Google-Proof Q&A Benchmark，简称 GPQA）是大型语言模型（LLM）面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限，提供一个严格的测试平台，不仅评估模型的事实记忆能力，还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA，涵盖它的起源、目的、组成部分，以及领先的大型语言模型在这个高要求基准测试中的表现。

更新于 2026年7月9日·2,341 次浏览

问题数量: 448
发布机构: CohereAI
评测类别: 综合评估
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准

GPQA评测最新大模型排名与完整榜单数据

查看 GPQA 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	Qwen3.6-35B-A3B 开启思考	86.00	2026-04-16	350亿	免费商用
	GPT-Live-1 思考水平·高	84.20	2026-07-08	未知	闭源
	DeepSeek-V3-0324 常规模式	68.40	2025-03-24	6710亿	免费商用
4	Pangu Embedded 常规模式	68.00	2025-06-30	70亿	免费商用
5	Qwen3-8B 常规模式	62.00	2025-04-28	80亿	免费商用
6	DeepSeek-V3 常规模式	59.10	2024-12-26	6810亿	免费商用
7	GLM-4-9B-Chat 常规模式	58.50	2024-06-05	90亿	免费商用
8	Hunyuan-A13B-Instruct 常规模式	49.12	2025-06-27	800亿	免费商用
9	Mistral-Small-3.1-24B-Instruct-2503 常规模式	44.42	2025-03-17	240亿	免费商用
10	Mistral-Small-3.2 常规模式	44.22	2025-06-20	240亿	免费商用
11	Qwen3-Next 常规模式	43.43	2025-09-11	800亿	免费商用
12	GPT-4o mini 常规模式	40.20	2024-07-18	未知	闭源
13	Claude 3.5 Haiku 常规模式	37.50	2024-10-22	未知	闭源
14	Gemma 3 - 27B (IT) 常规模式	36.83	2025-03-12	270亿	免费商用
15	C4AI Aya Vision 32B 常规模式	34.38	2025-03-04	320亿	非商用

GPQA评测最新大模型排名与完整榜单数据

GPQA 排名