DeepSeek-V4-Flash 评测详情

DeepSeek-V4-Flash 当前已收录的代表性评测结果包括 LiveCodeBench（4 / 123，得分 91.60）、MMLU Pro（16 / 132，得分 86.40）、GPQA Diamond（31 / 187，得分 88.10）。

评测结果

DeepSeek-V4-Flash

评测结果

综合评估

共 12 项评测

评测名称 / 模式

得分

排名/总数

常规模式

71.20

112 / 187

高

87.40

38 / 187

最高

88.10

31 / 187

常规模式

83

45 / 132

高

86.40

16 / 132

最高

86.20

17 / 132

常规模式

67.25

49 / 115

常规模式

8.10

153 / 170

高

29.40

89 / 170

高工具

40.30

60 / 170

最高

34.80

72 / 170

思考水平·极高工具

45.10

40 / 170

编程与软件工程

共 14 项评测

评测名称 / 模式

得分

排名/总数

高

2816

5 / 16

最高

3052

3 / 16

常规模式

55.20

83 / 123

高

88.40

8 / 123

最高

91.60

4 / 123

SWE-bench Verified

常规模式工具

73.70

43 / 111

SWE-bench Verified

高工具

78.60

22 / 111

SWE-bench Verified

思考水平·极高工具

79

19 / 111

SWE-bench Multilingual

常规模式工具

69.70

18 / 22

SWE-bench Multilingual

高工具

70.20

16 / 22

SWE-bench Multilingual

思考水平·极高工具

73.30

11 / 22

SWE-Bench Pro - Public

常规模式工具

49.10

43 / 53

SWE-Bench Pro - Public

高工具

52.30

36 / 53

SWE-Bench Pro - Public

思考水平·极高工具

52.60

34 / 53

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

46.30

32 / 63

AI Agent - 信息收集

共 2 项评测

评测名称 / 模式

得分

排名/总数

高工具

53.50

39 / 52

思考水平·极高工具

73.20

27 / 52

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

常规模式工具

49.10

35 / 47

Terminal Bench 2.0

高工具

56.60

27 / 47

Terminal Bench 2.0

思考水平·极高工具

56.90

25 / 47

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

IMO-AnswerBench

常规模式

41.90

20 / 21

IMO-AnswerBench

高

85.10

10 / 21

IMO-AnswerBench

最高

88.40

5 / 21

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

思考水平·极高工具

1395

6 / 21

与其他模型对比