GPT-4o 评测详情
GPT-4o 当前已收录的代表性评测结果包括 HumanEval(8 / 39,得分 90)、MMLU(15 / 65,得分 88.70)、BBH(5 / 20,得分 91.70)。
评测结果
GPT-4o
评测结果
综合评估
共 5 项评测评测名称 / 模式
得分
排名/总数
编程与软件工程
共 4 项评测评测名称 / 模式
得分
排名/总数
数学推理
共 5 项评测评测名称 / 模式
得分
排名/总数
GPT-4o 当前已收录的代表性评测结果包括 HumanEval(8 / 39,得分 90)、MMLU(15 / 65,得分 88.70)、BBH(5 / 20,得分 91.70)。