DeepSeek-V3 评测详情

DeepSeek-V3 当前已收录的代表性评测结果包括 BBH（3 / 21，得分 92.30）、MATH（7 / 42，得分 87.80）、HumanEval（9 / 39，得分 89）。

评测结果

DeepSeek-V3

评测结果

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

92.30

3 / 21

88.50

17 / 66

75.90

83 / 132

59.10

148 / 187

59.10

6 / 15

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

89

9 / 39

34.60

110 / 123

数学推理

共 4 项评测

评测名称 / 模式

得分

排名/总数

87.80

7 / 42

87.80

39 / 44

39

52 / 62

1.70

49 / 60

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

24.90

31 / 47

写作和创作

共 1 项评测

评测名称 / 模式

得分

排名/总数

Creative Writing

81.60

15 / 23

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

18.90

59 / 63

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

48.40

34 / 59

与其他模型对比