DeepSeek-R1 评测详情

DeepSeek-R1 当前已收录的代表性评测结果包括 MMLU(8 / 65,得分 90.80)、MMLU Pro(37 / 126,得分 84)、MATH-500(13 / 44,得分 97.30)。

评测结果

DeepSeek-R1

评测结果

思考模式

综合评估

共 4 项评测
评测名称 / 模式
得分
排名/总数
90.80
8 / 65
84
37 / 126
71.50
104 / 179
15.80
55 / 65

常识问答

共 1 项评测
评测名称 / 模式
得分
排名/总数
30.10
22 / 45

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
65.90
59 / 120
49.20
92 / 108

数学推理

共 3 项评测
评测名称 / 模式
得分
排名/总数
97.30
13 / 44
79.80
28 / 62
70
73 / 106

写作和创作

共 1 项评测
评测名称 / 模式
得分
排名/总数
84.60
11 / 23

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
常规模式
30.90
48 / 63

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
开启思考
56.90
25 / 59