DeepSeek-R1 评测详情

DeepSeek-R1 当前已收录的代表性评测结果包括 MMLU（8 / 65，得分 90.80）、MMLU Pro（37 / 126，得分 84）、MATH-500（13 / 44，得分 97.30）。

评测结果

DeepSeek-R1

评测结果

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

90.80

8 / 65

84

37 / 126

71.50

104 / 179

15.80

55 / 65

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

30.10

22 / 45

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

65.90

59 / 120

SWE-bench Verified

49.20

92 / 108

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

97.30

13 / 44

79.80

28 / 62

70

73 / 106

写作和创作

共 1 项评测

评测名称 / 模式

得分

排名/总数

Creative Writing

84.60

11 / 23

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

30.90

48 / 63

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

56.90

25 / 59

与其他模型对比