Llama3.1-8B 评测详情

Llama3.1-8B 当前已收录的代表性评测结果包括 BBH（16 / 21，得分 57.70）、GSM8K（21 / 26，得分 55.30）、MBPP（25 / 28，得分 53.90）。

评测结果

Llama3.1-8B

评测结果

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

66.60

62 / 66

57.70

16 / 21

35.40

128 / 132

25.80

182 / 187

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

55.30

21 / 26

20.50

40 / 42

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

53.90

25 / 28

33.50

36 / 39

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

59.30

4 / 4

与其他模型对比