GPT-4o 评测详情

GPT-4o 当前已收录的代表性评测结果包括 HumanEval(8 / 39,得分 90)、MMLU(15 / 65,得分 88.70)、BBH(5 / 20,得分 91.70)。

评测结果

GPT-4o

评测结果

思考模式
工具使用

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
91.70
5 / 20
88.70
15 / 65
77.90
72 / 126
70.10
114 / 179
5.30
151 / 159

编程与软件工程

共 4 项评测
评测名称 / 模式
得分
排名/总数
90
8 / 39
35.10
105 / 120

数学推理

共 5 项评测
评测名称 / 模式
得分
排名/总数
75.90
16 / 42
75.90
43 / 44
42.10
93 / 106
9.30
61 / 62
0.30
57 / 60

常识问答

共 1 项评测
评测名称 / 模式
得分
排名/总数
38.20
20 / 45

OpenClaw智能体能力综合测评

共 1 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
开启思考工具
71.10
30 / 37
GPT-4o 评测结果与排名详情 | DataLearnerAI