Grok 3 评测详情

Grok 3 当前已收录的代表性评测结果包括 AIME 2024(22 / 62,得分 84.20)、SimpleQA(16 / 45,得分 43.40)、GPQA Diamond(75 / 179,得分 80.40)。

评测结果

Grok 3

评测结果

思考模式

综合评估

共 1 项评测
评测名称 / 模式
得分
排名/总数
80.40
75 / 179

常识问答

共 1 项评测
评测名称 / 模式
得分
排名/总数
43.40
16 / 45

数学推理

共 4 项评测
评测名称 / 模式
得分
排名/总数
84.20
22 / 62
77.10
62 / 106
3.80
45 / 60
0
72 / 80

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
70.60
52 / 120

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
常规模式
36.10
44 / 63

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
常规模式
53.30
30 / 59