GPT-4o 评测详情

GPT-4o 当前已收录的代表性评测结果包括 HumanEval（8 / 39，得分 90）、MMLU（15 / 65，得分 88.70）、BBH（5 / 20，得分 91.70）。

评测结果

GPT-4o

评测结果

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

91.70

5 / 20

88.70

15 / 65

77.90

72 / 126

70.10

115 / 180

5.30

156 / 164

编程与软件工程

共 4 项评测

评测名称 / 模式

得分

排名/总数

90

8 / 39

35.10

105 / 120

SWE-bench Verified

31

104 / 109

IC SWE-Lancer(Diamond)

23.30

6 / 8

数学推理

共 5 项评测

评测名称 / 模式

得分

排名/总数

75.90

16 / 42

75.90

43 / 44

42.10

93 / 106

9.30

61 / 62

0.30

57 / 60

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

38.20

20 / 45

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

23.10

47 / 59

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

71.10

30 / 37

与其他模型对比

GPT-4o 评测结果与排名详情 | DataLearnerAI