DeepSeek-R1-0528 评测详情

DeepSeek-R1-0528 当前已收录的代表性评测结果包括 MATH-500（7 / 44，得分 98）、Creative Writing（4 / 23，得分 86.25）、MMLU Pro（25 / 126，得分 85）。

评测结果

DeepSeek-R1-0528

评测结果

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

85

25 / 126

81

70 / 179

21.20

54 / 65

17.70

113 / 159

1.30

52 / 59

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

27.80

25 / 45

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

73.30

45 / 120

SWE-bench Verified

57.60

80 / 108

数学推理

共 5 项评测

评测名称 / 模式

得分

排名/总数

98

7 / 44

91.40

13 / 62

87.50

44 / 106

29

7 / 16

IMO-ProofBench Advanced

3.80

8 / 8

写作和创作

共 1 项评测

评测名称 / 模式

得分

排名/总数

Creative Writing

86.25

4 / 23

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

5.70

35 / 35

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

40.80

38 / 63

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

71.40

15 / 59

与其他模型对比