Llama3.1-70B-Instruct 评测详情

Llama3.1-70B-Instruct 当前已收录的代表性评测结果包括 MBPP（5 / 28，得分 86）、MMLU（33 / 65，得分 86）、HumanEval（23 / 39，得分 80.50）。

评测结果

Llama3.1-70B-Instruct

评测结果

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

86

33 / 65

66.40

99 / 126

48

159 / 180

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

86

5 / 28

80.50

23 / 39

33.30

109 / 120

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

67.80

26 / 42

与其他模型对比