DeepSeek V3.2-Exp 评测详情

DeepSeek V3.2-Exp 当前已收录的代表性评测结果包括 SimpleQA（1 / 45，得分 97.10）、Aider-Polyglot（11 / 59，得分 74.20）、MMLU Pro（25 / 126，得分 85）。

评测结果

DeepSeek V3.2-Exp

评测结果

综合评估

共 9 项评测

评测名称 / 模式

得分

排名/总数

85

25 / 126

84

37 / 126

79.90

78 / 179

74

97 / 179

常规模式

49.85

91 / 115

思考模式

58.90

73 / 115

20.30

104 / 159

19.80

106 / 159

8.60

139 / 159

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

97.10

1 / 45

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

74.10

41 / 120

55

84 / 120

SWE-bench Verified

67.80

67 / 108

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

89.30

39 / 106

58

83 / 106

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

37.70

14 / 35

23

30 / 35

Agent能力评测

共 5 项评测

评测名称 / 模式

得分

排名/总数

常规模式

70.20

17 / 59

思考模式

74.20

11 / 59

66.70

26 / 40

τ²-Bench - Telecom

34

34 / 35

τ²-Bench - Telecom

34

34 / 35

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

54.10

26 / 29

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

40.10

41 / 45

与其他模型对比