GPT-4.1 评测详情

GPT-4.1 当前已收录的代表性评测结果包括 MMLU（9 / 65，得分 90.20）、GSM8K（5 / 26，得分 95.90）、DROP（4 / 9，得分 89.20）。

评测结果

GPT-4.1

评测结果

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

90.20

9 / 65

80.50

57 / 126

66.30

128 / 180

3.70

162 / 163

数学推理

共 6 项评测

评测名称 / 模式

得分

排名/总数

95.90

5 / 26

92.80

30 / 44

48.10

49 / 62

36.70

97 / 106

5.50

37 / 60

FrontierMath - Tier 4

常规模式

0

72 / 80

阅读理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

89.20

4 / 9

编程与软件工程

共 4 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

54.60

85 / 109

40.50

99 / 120

SWE Manager Lancer(Diamond)

35.10

1 / 1

IC SWE-Lancer(Diamond)

14.40

8 / 8

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

27

52 / 63

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

54.70

31 / 40

常规模式

52.40

31 / 59

与其他模型对比