DeepSeek-V3.1 评测详情

DeepSeek-V3.1 当前已收录的代表性评测结果包括 MMLU（1 / 66，得分 93.40）、SimpleQA（4 / 47，得分 93.40）、AIME 2024（7 / 62，得分 93.10）。

评测结果

DeepSeek-V3.1

评测结果

综合评估

共 7 项评测

评测名称 / 模式

得分

排名/总数

93.40

1 / 66

91.80

4 / 66

85

26 / 132

83.70

43 / 132

80.10

81 / 187

74.90

101 / 187

15.90

133 / 172

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

93.40

4 / 47

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

74.80

41 / 123

56.40

79 / 123

SWE-bench Verified

66

74 / 112

数学推理

共 4 项评测

评测名称 / 模式

得分

排名/总数

93.10

7 / 62

66.30

40 / 62

88.40

43 / 107

49.80

88 / 107

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

31.30

19 / 35

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

40

40 / 63

与其他模型对比