DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
  1. Back to benchmark list
  2. /
  3. GPQA Diamond

GPQA Diamond 评测基准详情

通用人工智能(AGI)的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布,其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据,包含198条结果。

更新2026-03-21
Views2,437
问题数量
198
发布机构
CohereAI
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
高难度

简介

GPQA Diamond 旨在提供一个全面的框架,能够测试模型在多种推理场景下的能力,并推动大模型在更加复杂任务上的改进。

相关资源

查看原始论文
阅读学术论文原文
获取数据集
下载评测数据集
访问官网
浏览项目官方网站
DataLearner 介绍
中文详细解读

GPQA Diamond Model Score Leaderboard

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

详细评测数据

已排除 2 条并行模式成绩

GPQA Diamond详细排名数据表格

排名模型
1
GPT-5.4 Pro思考模式 High(无工具)
94.42026-03-05未知
2
Gemini 3.1 Pro Preview思考模式 High(无工具)
94.32026-02-20未知
3
GPT-5.2深度思考(无工具、并行)
93.22025-12-11未知
4
GPT-5.2 Prothinking
93.22025-12-11未知
5
GPT-5.4极高强度思考(无工具)
92.82026-03-05未知
6
GPT-5.2极高强度思考(无工具)
92.42025-12-11未知
7
Gemini 3.0 Pro (Preview 11-2025)thinking
91.92025-11-18未知
8
Claude Opus 4.6扩展(无工具)
91.312026-02-05未知
9
Gemini 3.0 Pro (Preview 11-2025)high
912025-11-18未知
10
Gemini 3.0 Flashthinking
90.42025-12-17未知
11
Claude Sonnet 4.6thinking
89.92026-02-17未知
12
GPT-5-Prothinking + 使用工具
89.42025-08-07未知
13
GPT-5-Prothinking
88.42025-08-07未知
14
Qwen3.5-397B-A17Bthinking
88.42026-02-16397
15
Qwen3.5-397B-A17B思考模式(无工具)
88.42026-02-16397
16
GPT-5.1thinking
88.12025-11-12未知
17
GPT-5.1high
88.12025-11-12未知
18
GPT-5.1思考模式 High(无工具)
88.12025-11-12未知
19
GPT-5.4 mini极高强度思考(无工具)
882026-03-17未知
20
Kimi K2.5思考模式(无工具)
87.62026-01-2710000
21
Qwen3-Max-Thinkingthinking
87.42026-01-2610000
22
GPT-5thinking + 使用工具
87.32025-08-07未知
23
Grok 4thinking
872025-07-10未知
24
Claude Opus 4.5thinking
872025-11-25未知
25
Gemini 2.5-Prothinking
86.42025-06-05未知
26
GLM-5thinking
862026-02-117440
27
GPT-5high
85.72025-08-07未知
28
Grok 4 Fastthinking
85.72025-09-19未知
将鼠标移至此处继续加载剩余 130 条