DeepSeek V3.2-Exp 评测详情

DeepSeek V3.2-Exp 当前已收录的代表性评测结果包括 SimpleQA(1 / 45,得分 97.10)、Aider-Polyglot(11 / 59,得分 74.20)、MMLU Pro(25 / 126,得分 85)。

评测结果

DeepSeek V3.2-Exp

评测结果

思考模式

综合评估

共 9 项评测
评测名称 / 模式
得分
排名/总数
85
25 / 126
84
37 / 126
79.90
78 / 179
74
97 / 179
LiveBench
常规模式
49.85
91 / 115
LiveBench
思考模式
58.90
73 / 115
20.30
104 / 159
19.80
106 / 159
8.60
139 / 159

常识问答

共 1 项评测
评测名称 / 模式
得分
排名/总数
97.10
1 / 45

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数
74.10
41 / 120
55
84 / 120
67.80
67 / 108

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
89.30
39 / 106
58
83 / 106

AI Agent - 工具使用

共 2 项评测
评测名称 / 模式
得分
排名/总数
37.70
14 / 35

Agent能力评测

共 5 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
常规模式
70.20
17 / 59
Aider-Polyglot
思考模式
74.20
11 / 59
66.70
26 / 40

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
54.10
26 / 29

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
40.10
41 / 45