GPQA Diamond 大模型得分排行榜
冠军
亚军
季军
其他排名
详细排名数据表格
模型简称 | GPQA Diamond得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
Grok 4 Heavy | 88.9 |
|
2025-07-10 | 0.0 |
Grok 3.5 | 88.2 |
|
2025-05-06 | 未知 |
Grok 4 (TTC) | 88.0 |
|
2025-07-10 | 0.0 |
Grok 4 | 87.0 |
|
2025-07-10 | 0.0 |
Gemini-2.5-Pro-Preview-06-05 | 86.4 |
![]() |
2025-06-05 | 未知 |
Claude Sonnet 3.7-64K Extended Thinking | 84.8 |
![]() |
2025-02-25 | 未知 |
Grok-3 - Reasoning Beta | 84.6 |
|
2025-02-18 | 未知 |
Grok-3 mini - Reasoning | 84.0 |
|
2025-02-18 | 未知 |
Gemini 2.5 Pro Experimental 03-25 | 84.0 |
![]() |
2025-03-25 | 0.0 |
o3-pro | 84.0 |
![]() |
2025-06-10 | 未知 |
OpenAI o3 | 83.3 |
![]() |
2025-04-16 | 未知 |
Gemini-2.5-Pro-Preview-05-06 | 83.0 |
![]() |
2025-05-06 | 未知 |
OpenAI o4 - mini | 81.4 |
![]() |
2025-04-16 | 未知 |
DeepSeek-R1-0528 | 81.0 |
![]() |
2025-05-28 | 6850.0 |
Grok 3 | 80.4 |
|
2025-02-17 | 未知 |
OpenAI o3-mini (high) | 79.7 |
![]() |
2025-01-31 | 未知 |
Claude Opus 4 | 79.6 |
![]() |
2025-05-23 | 未知 |
Gemini 2.5 Flash | 78.3 |
![]() |
2025-04-17 | 未知 |
OpenAI o1 | 77.3 |
![]() |
2024-12-05 | 未知 |
Claude Sonnet 4 | 75.4 |
![]() |
2025-05-23 | 未知 |
Kimi K2 | 75.1 |
![]() |
2025-07-11 | 10000.0 |
Pangu Pro MoE | 73.7 |
![]() |
2025-06-30 | 719.0 |
Llama 4 Behemoth Instruct | 73.7 |
![]() |
2025-04-05 | 20000.0 |
DeepSeek-R1 | 71.5 |
![]() |
2025-01-20 | 6710.0 |
GPT-4.5 | 71.4 |
![]() |
2025-02-28 | 未知 |
Hunyuan-A13B-Instruct | 71.2 |
![]() |
2025-06-27 | 800.0 |
Qwen3-235B-A22B | 71.1 |
![]() |
2025-04-28 | 2350.0 |
Magistral-Medium-2506 | 70.83 |
![]() |
2025-06-10 | 未知 |
MiniMax-M1-80k | 70.0 |
![]() |
2025-06-16 | 4560.0 |
Llama 4 Maverick Instruct | 69.8 |
![]() |
2025-04-05 | 4000.0 |
Hunyuan-T1 | 69.3 |
![]() |
2025-03-21 | 0.0 |
MiniMax-M1-40k | 69.2 |
![]() |
2025-06-16 | 4560.0 |
DeepSeek-V3-0324 | 68.4 |
![]() |
2025-03-24 | 6810.0 |
Magistral-Small-2506 | 68.18 |
![]() |
2025-06-10 | 240.0 |
Claude Sonnet 3.7 | 68.0 |
![]() |
2025-02-25 | 未知 |
Gemini 2.5 Flash-Lite | 66.7 |
![]() |
2025-06-17 | 未知 |
GPT-4.1 | 66.3 |
![]() |
2025-04-14 | 未知 |
Gemini 2.0 Flash Experimental | 65.2 |
![]() |
2024-12-11 | 未知 |
DeepSeek-R1-Distill-Llama-70B | 65.2 |
![]() |
2025-01-20 | 700.0 |
GPT-4.1 mini | 65.0 |
![]() |
2025-04-14 | 未知 |
Claude 3.5 Sonnet New | 65.0 |
![]() |
2024-10-22 | 0.0 |
Grok 3 mini | 65.0 |
|
2025-02-18 | 未知 |
Gemini 2.0 Pro Experimental | 64.7 |
![]() |
2025-02-05 | 未知 |
OpenAI o1-mini | 60.0 |
![]() |
2024-09-12 | 未知 |
Claude 3.5 Sonnet | 59.4 |
![]() |
2024-06-21 | 未知 |
DeepSeek-V3 | 59.1 |
![]() |
2024-12-26 | 6810.0 |
QwQ-32B | 58.0 |
![]() |
2025-03-06 | 325.0 |
Hunyuan-TurboS | 57.5 |
![]() |
2025-03-10 | 未知 |
Llama 4 Scout Instruct | 57.2 |
![]() |
2025-04-05 | 1090.0 |
Grok 2 | 56.0 |
|
2024-08-13 | 未知 |
GPT-4o | 53.6 |
![]() |
2024-05-13 | 未知 |
Gemini 1.5 Pro | 53.5 |
![]() |
2024-02-15 | 0.0 |
Qwen3-32B | 53.3 |
![]() |
2025-04-28 | 220.0 |
Gemini 2.0 Flash-Lite | 51.5 |
![]() |
2025-02-05 | 未知 |
Llama3.3-70B-Instruct | 50.5 |
![]() |
2024-12-06 | 700.0 |
Claude3-Opus | 50.4 |
![]() |
2024-03-04 | 0.0 |
GPT-4.1 nano | 50.3 |
![]() |
2025-04-14 | 未知 |
DeepSeek-R1-Distill-Qwen-7B | 49.5 |
![]() |
2025-01-20 | 70.0 |
Phi-4-instruct (reasoning-trained) | 49.0 |
![]() |
2025-02-27 | 38.0 |
Llama3.1-405B Instruct | 49.0 |
![]() |
2024-07-23 | 4050.0 |
Llama3.1-70B-Instruct | 48.0 |
![]() |
2024-07-23 | 700.0 |
Mistral-Small-3.2 | 46.13 |
![]() |
2025-06-20 | 240.0 |
Mistral-Small-3.1-24B-Instruct-2503 | 45.96 |
![]() |
2025-03-17 | 240.0 |
Qwen2.5-72B | 45.9 |
![]() |
2024-09-18 | 727.0 |
Gemma 3 - 27B (IT) | 42.4 |
![]() |
2025-03-12 | 270.0 |
Claude 3.5 Haiku | 41.6 |
![]() |
2024-10-22 | 0.0 |
GPT-4o mini | 41.1 |
![]() |
2024-07-18 | 0.0 |
Gemma 3 - 12B (IT) | 40.9 |
![]() |
2025-03-12 | 120.0 |
Qwen2.5-7B | 36.4 |
![]() |
2024-09-18 | 70.0 |
Phi-4-mini-instruct (3.8B) | 36.0 |
![]() |
2025-02-27 | 38.0 |
Grok-1.5 | 35.9 |
|
2024-03-29 | 未知 |
C4AI Aya Vision 32B | 33.84 |
![]() |
2025-03-04 | 320.0 |
Gemma 2 - 9B | 32.8 |
![]() |
2024-06-27 | 90.0 |
Llama-3.2-3B | 26.6 |
![]() |
2024-09-18 | 32.0 |
Llama3.1-8B-Instruct | 26.3 |
![]() |
2024-07-23 | 80.0 |
Llama3.1-8B | 25.8 |
![]() |
2024-07-23 | 80.0 |
Mistral-7B-Instruct-v0.3 | 24.7 |
![]() |
2024-05-22 | 70.0 |
Qwen2.5-3B | 24.3 |
![]() |
2024-09-18 | 30.0 |
Amazon Nova Pro | 0.0 |
![]() |
2024-12-03 | 未知 |
GPT-5 Reasoning | 0.0 |
![]() |
2025-07-15 | 0.0 |
GPT-5 | 0.0 |
![]() |
2025-07-15 | 0.0 |
得分:
88.9
发布时间:
2025-07-10
参数规模(亿):
0.0
得分:
88.2
发布时间:
2025-05-06
参数规模(亿):
未知
得分:
88.0
发布时间:
2025-07-10
参数规模(亿):
0.0
得分:
87.0
发布时间:
2025-07-10
参数规模(亿):
0.0
得分:
86.4
发布时间:
2025-06-05
参数规模(亿):
未知
得分:
84.8
发布时间:
2025-02-25
参数规模(亿):
未知
得分:
84.6
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
84.0
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
84.0
发布时间:
2025-03-25
参数规模(亿):
0.0
得分:
84.0
发布时间:
2025-06-10
参数规模(亿):
未知
得分:
83.3
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
83.0
发布时间:
2025-05-06
参数规模(亿):
未知
得分:
81.4
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
81.0
发布时间:
2025-05-28
参数规模(亿):
6850.0
得分:
80.4
发布时间:
2025-02-17
参数规模(亿):
未知
得分:
79.7
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
79.6
发布时间:
2025-05-23
参数规模(亿):
未知
得分:
78.3
发布时间:
2025-04-17
参数规模(亿):
未知
得分:
77.3
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
75.4
发布时间:
2025-05-23
参数规模(亿):
未知
得分:
75.1
发布时间:
2025-07-11
参数规模(亿):
10000.0
得分:
73.7
发布时间:
2025-06-30
参数规模(亿):
719.0
得分:
73.7
发布时间:
2025-04-05
参数规模(亿):
20000.0
得分:
71.5
发布时间:
2025-01-20
参数规模(亿):
6710.0
得分:
71.4
发布时间:
2025-02-28
参数规模(亿):
未知
得分:
71.2
发布时间:
2025-06-27
参数规模(亿):
800.0
得分:
71.1
发布时间:
2025-04-28
参数规模(亿):
2350.0
得分:
70.83
发布时间:
2025-06-10
参数规模(亿):
未知
得分:
70.0
发布时间:
2025-06-16
参数规模(亿):
4560.0
得分:
69.8
发布时间:
2025-04-05
参数规模(亿):
4000.0
得分:
69.3
发布时间:
2025-03-21
参数规模(亿):
0.0
得分:
69.2
发布时间:
2025-06-16
参数规模(亿):
4560.0
得分:
68.4
发布时间:
2025-03-24
参数规模(亿):
6810.0
得分:
68.18
发布时间:
2025-06-10
参数规模(亿):
240.0
得分:
68.0
发布时间:
2025-02-25
参数规模(亿):
未知
得分:
66.7
发布时间:
2025-06-17
参数规模(亿):
未知
得分:
66.3
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
65.2
发布时间:
2024-12-11
参数规模(亿):
未知
得分:
65.2
发布时间:
2025-01-20
参数规模(亿):
700.0
得分:
65.0
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
65.0
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
65.0
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
64.7
发布时间:
2025-02-05
参数规模(亿):
未知
得分:
60.0
发布时间:
2024-09-12
参数规模(亿):
未知
得分:
59.4
发布时间:
2024-06-21
参数规模(亿):
未知
得分:
59.1
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
58.0
发布时间:
2025-03-06
参数规模(亿):
325.0
得分:
57.5
发布时间:
2025-03-10
参数规模(亿):
未知
得分:
57.2
发布时间:
2025-04-05
参数规模(亿):
1090.0
得分:
56.0
发布时间:
2024-08-13
参数规模(亿):
未知
得分:
53.6
发布时间:
2024-05-13
参数规模(亿):
未知
得分:
53.5
发布时间:
2024-02-15
参数规模(亿):
0.0
得分:
53.3
发布时间:
2025-04-28
参数规模(亿):
220.0
得分:
51.5
发布时间:
2025-02-05
参数规模(亿):
未知
得分:
50.5
发布时间:
2024-12-06
参数规模(亿):
700.0
得分:
50.4
发布时间:
2024-03-04
参数规模(亿):
0.0
得分:
50.3
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
49.5
发布时间:
2025-01-20
参数规模(亿):
70.0
得分:
49.0
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
49.0
发布时间:
2024-07-23
参数规模(亿):
4050.0
得分:
48.0
发布时间:
2024-07-23
参数规模(亿):
700.0
得分:
46.13
发布时间:
2025-06-20
参数规模(亿):
240.0
得分:
45.96
发布时间:
2025-03-17
参数规模(亿):
240.0
得分:
45.9
发布时间:
2024-09-18
参数规模(亿):
727.0
得分:
42.4
发布时间:
2025-03-12
参数规模(亿):
270.0
得分:
41.6
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
41.1
发布时间:
2024-07-18
参数规模(亿):
0.0
得分:
40.9
发布时间:
2025-03-12
参数规模(亿):
120.0
得分:
36.4
发布时间:
2024-09-18
参数规模(亿):
70.0
得分:
36.0
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
35.9
发布时间:
2024-03-29
参数规模(亿):
未知
得分:
33.84
发布时间:
2025-03-04
参数规模(亿):
320.0
得分:
32.8
发布时间:
2024-06-27
参数规模(亿):
90.0
得分:
26.6
发布时间:
2024-09-18
参数规模(亿):
32.0
得分:
26.3
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
25.8
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
24.7
发布时间:
2024-05-22
参数规模(亿):
70.0
得分:
24.3
发布时间:
2024-09-18
参数规模(亿):
30.0
得分:
0.0
发布时间:
2024-12-03
参数规模(亿):
未知
得分:
0.0
发布时间:
2025-07-15
参数规模(亿):
0.0
得分:
0.0
发布时间:
2025-07-15
参数规模(亿):
0.0