DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Back to benchmark list
  2. /
  3. GPQA

GPQA 评测基准详情

研究生级别的 **Google 防查找问答基准测试**(即Graduate-Level Google-Proof Q&A Benchmark,简称 GPQA)是大型语言模型(LLM)面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限,提供一个严格的测试平台,不仅评估模型的事实记忆能力,还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA,涵盖它的起源、目的、组成部分,以及领先的大型语言模型在这个高要求基准测试中的表现。

更新2025-09-14
Views1,153
问题数量
448
发布机构
CohereAI
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
高难度

简介

一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准

相关资源

查看原始论文
阅读学术论文原文
获取数据集
下载评测数据集
访问官网
浏览项目官方网站
DataLearner 介绍
中文详细解读

GPQA Model Score Leaderboard

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

详细评测数据

No parallel thinking results available

GPQA详细排名数据表格

排名模型
1
DeepSeek-V3-0324default
68.42025-03-246710
2
Pangu Embeddeddefault
682025-06-3070
3
Qwen3-8Bdefault
622025-04-2880
4
DeepSeek-V3default
59.12024-12-266810
5
GLM-4-9B-Chatdefault
58.52024-06-0590
6
Hunyuan-A13B-Instructdefault
49.122025-06-27800
7
Mistral-Small-3.1-24B-Instruct-2503default
44.422025-03-17240
8
Mistral-Small-3.2default
44.222025-06-20240
9
Qwen3-Nextdefault
43.432025-09-11800
10
GPT-4o minidefault
40.22024-07-18未知
11
Claude 3.5 Haikudefault
37.52024-10-22未知
12
Gemma 3 - 27B (IT)default
36.832025-03-12270
13
C4AI Aya Vision 32Bdefault
34.382025-03-04320