Grok 3 评测详情

Grok 3 当前已收录的代表性评测结果包括 AIME 2024（22 / 62，得分 84.20）、SimpleQA（16 / 45，得分 43.40）、GPQA Diamond（75 / 179，得分 80.40）。

评测结果

Grok 3

评测结果

综合评估

共 1 项评测

评测名称 / 模式

得分

排名/总数

80.40

75 / 179

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

43.40

16 / 45

数学推理

共 4 项评测

评测名称 / 模式

得分

排名/总数

84.20

22 / 62

77.10

62 / 106

3.80

45 / 60

FrontierMath - Tier 4

常规模式

0

72 / 80

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

70.60

52 / 120

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

36.10

44 / 63

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

53.30

30 / 59

与其他模型对比