Claude3-Opus 评测详情

Claude3-Opus 当前已收录的代表性评测结果包括 GSM8K（8 / 26，得分 95）、HellaSwag（1 / 3，得分 95.40）、MMLU（27 / 65，得分 86.80）。

评测结果

Claude3-Opus

评测结果

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

86.80

27 / 65

68.45

95 / 126

50.40

154 / 180

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

95

8 / 26

60.10

31 / 42

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

84.90

21 / 39

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

95.40

1 / 3

阅读理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

83.10

6 / 9

与其他模型对比