DeepSeek-R1-0528 评测详情

DeepSeek-R1-0528 当前已收录的代表性评测结果包括 MATH-500(7 / 44,得分 98)、Creative Writing(4 / 23,得分 86.25)、MMLU Pro(25 / 126,得分 85)。

评测结果

DeepSeek-R1-0528

评测结果

思考模式

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
85
25 / 126
81
70 / 179
21.20
54 / 65
17.70
113 / 159
1.30
52 / 59

常识问答

共 1 项评测
评测名称 / 模式
得分
排名/总数
27.80
25 / 45

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
73.30
45 / 120
57.60
80 / 108

数学推理

共 5 项评测
评测名称 / 模式
得分
排名/总数
98
7 / 44
91.40
13 / 62
87.50
44 / 106

写作和创作

共 1 项评测
评测名称 / 模式
得分
排名/总数
86.25
4 / 23

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
5.70
35 / 35

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
开启思考
40.80
38 / 63

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
开启思考
71.40
15 / 59