DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 返回评测基准列表
  2. /
  3. GPQA Diamond

GPQA Diamond

通用人工智能(AGI)的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布,其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据,包含198条结果。

更新于 2026-04-16
3,311 次浏览
问题数量
198
发布机构
CohereAI
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
高难度

简介

GPQA Diamond 旨在提供一个全面的框架,能够测试模型在多种推理场景下的能力,并推动大模型在更加复杂任务上的改进。

相关资源

查看原始论文
阅读学术论文原文
获取数据集
下载评测数据集
访问官网
浏览项目官方网站
DataLearner 介绍
中文详细解读

GPQA Diamond 大模型得分排行榜

数据来源:DataLearnerAI

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

GPQA Diamond评测最新大模型排名与完整榜单数据

查看 GPQA Diamond 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。

已排除 2 条并行模式成绩
模型发布时间截止:

GPQA Diamond详细排名数据表格

排名模型
1
Claude Mythos Preview
扩展思考
94.602026-04-07未知
2
GPT-5.4 Pro
思考水平 · 高
94.402026-03-05未知
3
Gemini 3.1 Pro Preview
思考水平 · 高
94.302026-02-20未知
4
Claude Opus 4.7
扩展思考
94.202026-04-16未知
5
GPT-5.2
并行 · 深度思考
93.202025-12-11未知
6
GPT-5.2 Pro
思考
93.202025-12-11未知
7
GPT-5.4
思考水平 · 超高
92.802026-03-05未知
8
GPT-5.2
思考水平 · 超高
92.402025-12-11未知
9
Gemini 3.0 Pro (Preview 11-2025)
思考
91.902025-11-18未知
10
Claude Opus 4.6
扩展思考
91.312026-02-05未知
11
Gemini 3.0 Pro (Preview 11-2025)
思考水平 · 高
91.002025-11-18未知
12
Gemini 3.0 Flash
思考
90.402025-12-17未知
13
Qwen 3.6 Plus Preview
思考
90.402026-03-31未知
14
Claude Sonnet 4.6
思考
89.902026-02-17未知
15
Muse Spark
思考
89.502026-04-08未知
16
GPT-5-Pro
思考工具
89.402025-08-07未知
17
GPT-5-Pro
思考
88.402025-08-07未知
18
Qwen3.5-397B-A17B
思考
88.402026-02-16397
19
GPT-5.1
思考
88.102025-11-12未知
20
GPT-5.1
思考水平 · 高
88.102025-11-12未知
21
GPT-5.1
思考水平 · 高
88.102025-11-12未知
22
GPT-5.4 mini
思考水平 · 超高
88.002026-03-17未知
23
Kimi K2.5
思考
87.602026-01-2710000
24
Qwen3-Max-Thinking
思考
87.402026-01-2610000
25
GPT-5
思考工具
87.302025-08-07未知
26
Grok 4
思考
87.002025-07-10未知
27
Claude Opus 4.5
思考
87.002025-11-25未知
28
MiniMax-M2.7
思考
87.002026-03-182290
滚动或悬停加载剩余 136 条