Mistral-7B-Instruct-v0.3 评测详情

Mistral-7B-Instruct-v0.3 当前已收录的代表性评测结果包括 ARC(3 / 4,得分 60)、GSM8K(22 / 26,得分 36.20)、BBH(17 / 20,得分 56.10)。

评测结果

Mistral-7B-Instruct-v0.3

评测结果

思考模式

综合评估

共 4 项评测
评测名称 / 模式
得分
排名/总数
64.20
64 / 65
56.10
17 / 20
30.90
124 / 126
24.70
175 / 179

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
36.20
22 / 26
10.20
41 / 42

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
51.10
26 / 28
29.30
37 / 39

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
60
3 / 4