DeepSeek-V4-Flash Benchmark Details

DeepSeek-V4-Flash currently shows benchmark results led by LiveCodeBench (4 / 123, score 91.60), MMLU Pro (16 / 132, score 86.40), GPQA Diamond (31 / 187, score 88.10).

Benchmark Results

DeepSeek-V4-Flash

Benchmark Results

General Knowledge

12 evaluations

Benchmark / mode

Score

Rank/total

GPQA Diamond

Standard Mode

71.20

112 / 187

GPQA Diamond

High

87.40

38 / 187

GPQA Diamond

Max

88.10

31 / 187

MMLU Pro

Standard Mode

45 / 132

MMLU Pro

High

86.40

16 / 132

MMLU Pro

Max

86.20

17 / 132

LiveBench

Standard Mode

67.25

49 / 115

HLE

Standard Mode

8.10

155 / 172

HLE

High

29.40

91 / 172

HLE

HighTools

40.30

62 / 172

HLE

Max

34.80

74 / 172

HLE

Thinking Level · Extra HighTools

45.10

42 / 172

Coding and Software Engineer

16 evaluations

Benchmark / mode

Score

Rank/total

CodeForces

High

2816

5 / 16

CodeForces

Max

3052

3 / 16

LiveCodeBench

Standard Mode

55.20

83 / 123

LiveCodeBench

High

88.40

8 / 123

LiveCodeBench

Max

91.60

4 / 123

SWE-bench Verified

Standard ModeTools

73.70

44 / 112

SWE-bench Verified

HighTools

78.60

23 / 112

SWE-bench Verified

Thinking Level · Extra HighTools

20 / 112

SWE-bench Multilingual

Standard ModeTools

69.70

19 / 23

SWE-bench Multilingual

HighTools

70.20

17 / 23

SWE-bench Multilingual

Thinking Level · Extra HighTools

73.30

12 / 23

DeepSWE

MaxTools

54.40

9 / 20

NL2Repo-Bench

MaxTools

54.20

1 / 1

SWE-Bench Pro - Public

Standard ModeTools

49.10

44 / 54

SWE-Bench Pro - Public

HighTools

52.30

37 / 54

SWE-Bench Pro - Public

Thinking Level · Extra HighTools

52.60

35 / 54

Common Sense Reasoning

1 evaluations

Benchmark / mode

Score

Rank/total

Simple Bench

Standard Mode

46.30

32 / 63

AI Agent - Information Search

2 evaluations

Benchmark / mode

Score

Rank/total

BrowseComp

HighTools

53.50

40 / 53

BrowseComp

Thinking Level · Extra HighTools

73.20

28 / 53

AI Agent - Tool Usage

7 evaluations

Benchmark / mode

Score

Rank/total

TerminalBench 2.1

MaxTools

82.70

9 / 28

CyberGym

MaxTools

76.70

1 / 1

Toolathlon-Verified

MaxTools

70.30

2 / 2

Terminal Bench 2.0

Standard ModeTools

49.10

35 / 47

Terminal Bench 2.0

HighTools

56.60

27 / 47

Terminal Bench 2.0

Thinking Level · Extra HighTools

56.90

25 / 47

Automation Bench

MaxTools

25.10

3 / 3

Math and Reasoning

3 evaluations

Benchmark / mode

Score

Rank/total

IMO-AnswerBench

Standard Mode

41.90

20 / 21

IMO-AnswerBench

High

85.10

10 / 21

IMO-AnswerBench

Max

88.40

5 / 21

Productivity Knowledge

1 evaluations

Benchmark / mode

Score

Rank/total

GDPval-AA

Thinking Level · Extra HighTools

1395

6 / 21

Agent Level Benchmark

1 evaluations

Benchmark / mode

Score

Rank/total

Agents' Last Exam

MaxTools

25.20

5 / 5

Compare with other models