DeepSeek-V3 评测详情

DeepSeek-V3 当前已收录的代表性评测结果包括 BBH(3 / 20,得分 92.30)、MATH(7 / 42,得分 87.80)、HumanEval(9 / 39,得分 89)。

评测结果

DeepSeek-V3

评测结果

思考模式

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
92.30
3 / 20
88.50
17 / 65
75.90
80 / 126
59.10
143 / 179
59.10
5 / 14

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
89
9 / 39
34.60
107 / 120

数学推理

共 4 项评测
评测名称 / 模式
得分
排名/总数
87.80
7 / 42
87.80
39 / 44
39
52 / 62
1.70
49 / 60

常识问答

共 1 项评测
评测名称 / 模式
得分
排名/总数
24.90
29 / 45

写作和创作

共 1 项评测
评测名称 / 模式
得分
排名/总数
81.60
15 / 23

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
18.90
27 / 27