Llama3.3-70B-Instruct 评测详情

Llama3.3-70B-Instruct 当前已收录的代表性评测结果包括 MBPP（3 / 28，得分 87.60）、MATH（13 / 42，得分 77）、HumanEval（14 / 39，得分 88.40）。

评测结果

Llama3.3-70B-Instruct

评测结果

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

86

33 / 65

68.90

94 / 126

50.50

152 / 179

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

88.40

14 / 39

87.60

3 / 28

33.30

109 / 120

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

77

13 / 42

与其他模型对比