GPQA Diamond 评测基准详情
通用人工智能(AGI)的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布,其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据,包含198条结果。
Views815
问题数量
198
发布机构
CohereAI
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
高难度
简介
GPQA Diamond 旨在提供一个全面的框架,能够测试模型在多种推理场景下的能力,并推动大模型在更加复杂任务上的改进。
相关资源
GPQA Diamond 大模型得分排行榜
数据来源:DataLearnerAI
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
详细评测数据
GPQA Diamond详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | GPT-5.2 Prothinking | 93.2 | 2025-12-11 | 未知 |
| 2 | GPT-5.2thinking | 92.4 | 2025-12-11 | 未知 |
| 3 | Gemini 3.0 Pro (Preview 11-2025)thinking | 91.9 | 2025-11-18 | 未知 |
| 4 | Gemini 3.0 Flashthinking | 90.4 | 2025-12-17 | 未知 |
| 5 | GPT-5-Prothinking + 使用工具 | 89.4 | 2025-08-07 | 未知 |
| 6 | GPT-5-Prothinking | 88.4 | 2025-08-07 | 未知 |
| 7 | GPT-5.1thinking | 88.1 | 2025-11-12 | 未知 |
| 8 | GPT-5.1high | 88.1 | 2025-11-12 | 未知 |
| 9 | GPT-5thinking + 使用工具 | 87.3 | 2025-08-07 | 未知 |
| 10 | Grok 4thinking | 87 | 2025-07-10 | 未知 |
| 11 | Claude Opus 4.5thinking | 87 | 2025-11-25 | 未知 |
| 12 | Gemini 2.5-Prothinking | 86.4 | 2025-06-05 | 未知 |
| 13 | GPT-5high | 85.7 | 2025-08-07 | 未知 |
| 14 | Grok 4 Fastthinking | 85.7 | 2025-09-19 | 未知 |
| 15 | Grok 4.1 Fastthinking | 85 | 2025-11-19 | 未知 |
| 16 | 84.8 | 2025-02-25 | 未知 | |
| 17 | 84.6 | 2025-02-18 | 未知 | |
| 18 | Kimi K2 Thinkingthinking | 84.5 | 2025-11-06 | 10400 |
| 19 | 84 | 2025-02-18 | 未知 | |
| 20 | 84 | 2025-03-25 | 未知 | |
| 21 | 84 | 2025-06-10 | 未知 | |
| 22 | Claude Sonnet 4deeper_thinking + 使用工具 | 83.8 | 2025-05-23 | 未知 |
| 23 | Claude Sonnet 4.5thinking | 83.4 | 2025-09-30 | 未知 |
| 24 | OpenAI o3thinking | 83.3 | 2025-04-16 | 未知 |
| 25 | 83 | 2025-05-06 | 未知 | |
| 26 | GLM-4.6thinking + 使用工具 | 82.9 | 2025-09-30 | 3550 |
| 27 | Gemini 2.5 Flashthinking | 82.8 | 2025-04-17 | 未知 |
| 28 | DeepSeek V3.2thinking | 82.4 | 2025-12-01 | 6710 |
| 29 | OpenAI o4 - minithinking | 81.4 | 2025-04-16 | 未知 |
| 30 | Qwen3-235B-A22B-Thinking-2507thinking | 81.1 | 2025-07-25 | 2350 |
| 31 | Qwen3-235B-A22B-Thinkingthinking | 81.1 | 2025-07-30 | 305 |
| 32 | DeepSeek-R1-0528thinking | 81 | 2025-05-28 | 6710 |
| 33 | Claude Opus 4.1thinking | 81 | 2025-08-06 | 未知 |
| 34 | GLM-4.6thinking | 81 | 2025-09-30 | 3550 |
| 35 | Claude Opus 4.1thinking + 使用工具 | 80.9 | 2025-08-06 | 未知 |
| 36 | 80.7 | 2025-09-22 | 6710 | |
| 37 | 80.4 | 2025-02-17 | 未知 | |
| 38 | GPT OSS 120Bthinking | 80.1 | 2025-08-06 | 117 |
| 39 | DeepSeek-V3.1thinking | 80.1 | 2025-08-20 | 6710 |
| 40 | DeepSeek V3.2-Expthinking | 79.9 | 2025-09-29 | 6710 |
| 41 | 79.7 | 2025-01-31 | 未知 | |
| 42 | 79.6 | 2025-05-23 | 未知 | |
| 43 | GLM-4.5thinking | 79.1 | 2025-07-28 | 3550 |
| 44 | DeepSeek-V3.1 Terminusthinking | 79 | 2025-09-22 | 6710 |
| 45 | 78.3 | 2025-04-17 | 未知 | |
| 46 | MiniMax M2thinking | 78 | 2025-10-27 | 2300 |
| 47 | 77.8 | 2025-08-07 | 未知 | |
| 48 | 77.5 | 2025-07-21 | 2350 | |
| 49 | 77.3 | 2024-12-05 | 未知 | |
| 50 | 77.3 | 2025-07-27 | 2410 | |
| 51 | ERNIE-4.5-VL-424B-A47B-Basethinking | 76.8 | 2025-06-30 | 4240 |
| 52 | 76 | 2025-09-05 | 未知 | |
| 53 | Claude Sonnet 4thinking | 75.4 | 2025-05-23 | 未知 |
| 54 | 75.1 | 2025-07-11 | 10000 | |
| 55 | GLM-4.5-Airthinking | 75 | 2025-07-28 | 1060 |
| 56 | 74.9 | 2025-08-20 | 6710 | |
| 57 | 74 | 2025-09-29 | 6710 | |
| 58 | 73.7 | 2025-04-05 | 20000 | |
| 59 | 73.7 | 2025-06-30 | 719 | |
| 60 | 73.7 | 2025-09-30 | 未知 | |
| 61 | Haiku 4.5thinking | 73.3 | 2025-10-15 | 未知 |
| 62 | 73 | 2025-07-31 | 3210 | |
| 63 | 71.5 | 2025-01-20 | 6710 | |
| 64 | GPT OSS 20Bthinking | 71.5 | 2025-08-06 | 210 |
| 65 | 71.4 | 2025-02-28 | 未知 | |
| 66 | 71.2 | 2025-06-27 | 800 | |
| 67 | 71.1 | 2025-04-28 | 2350 | |
| 68 | Qwen3-235B-A22Bthinking | 71.1 | 2025-04-28 | 2350 |
| 69 | 70.83 | 2025-06-10 | 未知 | |
| 70 | OpenAI o3-minithinking | 70.6 | 2025-01-31 | 未知 |
| 71 | 70.4 | 2025-07-29 | 305 | |
| 72 | 70.1 | 2024-05-13 | 未知 | |
| 73 | 70 | 2025-06-16 | 4560 | |
| 74 | 69.8 | 2025-04-05 | 4000 | |
| 75 | 69.3 | 2025-03-21 | 未知 | |
| 76 | 69.2 | 2025-06-16 | 4560 | |
| 77 | GPT-5-minithinking | 69 | 2025-08-07 | 未知 |
| 78 | 68.4 | 2025-03-24 | 6710 | |
| 79 | Qwen3-32Bthinking | 68.4 | 2025-04-28 | 320 |
| 80 | 68.18 | 2025-06-10 | 240 | |
| 81 | 68 | 2025-02-25 | 未知 | |
| 82 | 68 | 2025-05-23 | 未知 | |
| 83 | 66.9 | 2025-03-27 | 未知 | |
| 84 | 66.7 | 2025-06-17 | 未知 | |
| 85 | 66.3 | 2025-04-14 | 未知 | |
| 86 | Qwen3-4B-Thinking-2507thinking | 65.8 | 2025-08-06 | 40 |
| 87 | 65.2 | 2024-12-11 | 未知 | |
| 88 | 65.2 | 2025-01-20 | 700 | |
| 89 | 65 | 2024-10-22 | 未知 | |
| 90 | 65 | 2025-02-18 | 未知 | |
| 91 | 65 | 2025-04-14 | 未知 | |
| 92 | 64.7 | 2025-02-05 | 未知 | |
| 93 | 63 | 2025-09-30 | 3550 | |
| 94 | Qwen3-8Bthinking | 62 | 2025-04-28 | 80 |
| 95 | 62 | 2025-08-06 | 40 | |
| 96 | 60.5 | 2025-10-15 | 未知 | |
| 97 | 60.1 | 2025-08-04 | 70 | |
| 98 | 60 | 2024-09-12 | 未知 | |
| 99 | 59.4 | 2024-06-21 | 未知 | |
| 100 | 59.1 | 2024-12-26 | 6810 | |
| 101 | 58 | 2025-03-06 | 325 | |
| 102 | 57.5 | 2025-03-10 | 未知 | |
| 103 | 57.2 | 2025-04-05 | 1090 | |
| 104 | 56 | 2024-08-13 | 2690 | |
| 105 | 54.8 | 2025-04-28 | 305 | |
| 106 | 53.5 | 2024-02-15 | 未知 | |
| 107 | 53.3 | 2025-04-28 | 320 | |
| 108 | 51.5 | 2025-02-05 | 未知 | |
| 109 | 50.5 | 2024-12-06 | 700 | |
| 110 | 50.4 | 2024-03-04 | 未知 | |
| 111 | 50.3 | 2025-04-14 | 未知 | |
| 112 | 49.5 | 2025-01-20 | 70 | |
| 113 | 49 | 2024-07-23 | 4050 | |
| 114 | 49 | 2025-02-27 | 38 | |
| 115 | 48 | 2024-07-23 | 700 | |
| 116 | 46.13 | 2025-06-20 | 240 | |
| 117 | 45.96 | 2025-03-17 | 240 | |
| 118 | 45.9 | 2024-09-18 | 727 | |
| 119 | 42.4 | 2025-03-12 | 270 | |
| 120 | 41.6 | 2024-10-22 | 未知 | |
| 121 | 41.1 | 2024-07-18 | 未知 | |
| 122 | 40.9 | 2025-03-12 | 120 | |
| 123 | 39.3 | 2025-04-28 | 80 | |
| 124 | 36.4 | 2024-09-18 | 70 | |
| 125 | 36 | 2025-02-27 | 38 | |
| 126 | 35.9 | 2024-03-29 | 未知 | |
| 127 | 33.84 | 2025-03-04 | 320 | |
| 128 | 32.8 | 2024-06-27 | 90 | |
| 129 | 26.6 | 2024-09-18 | 32 | |
| 130 | 26.3 | 2024-07-23 | 80 | |
| 131 | 25.8 | 2024-07-23 | 80 | |
| 132 | 24.7 | 2024-05-22 | 70 | |
| 133 | 24.3 | 2024-09-18 | 30 | |
| 134 | 0 | 2024-12-03 | 未知 | |
| 135 | 0 | 2025-05-06 | 未知 | |
| 136 | 0 | 2025-08-07 | 未知 |