Llama3.3-70B-Instruct 评测详情

Llama3.3-70B-Instruct 当前已收录的代表性评测结果包括 MBPP(3 / 28,得分 87.60)、MATH(13 / 42,得分 77)、HumanEval(14 / 39,得分 88.40)。

评测结果

Llama3.3-70B-Instruct

评测结果

思考模式

综合评估

共 3 项评测
评测名称 / 模式
得分
排名/总数
86
33 / 65
68.90
94 / 126
50.50
152 / 179

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数
88.40
14 / 39
87.60
3 / 28
33.30
109 / 120

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
77
13 / 42