Grok-1.5 评测详情

Grok-1.5 当前已收录的代表性评测结果包括 HumanEval（25 / 39，得分 74.10）、MMLU（47 / 65，得分 81.30）、MATH（32 / 42，得分 50.60）。

评测结果

Grok-1.5

评测结果

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

81.30

47 / 65

51

116 / 126

35.90

171 / 181

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

74.10

25 / 39

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

50.60

32 / 42

与其他模型对比