GPT-5vsGPT-4o(2025-03-27)

在 3 个共同 benchmark 中，GPT-5 整体领先：GPT-5 领先 3 项，GPT-4o(2025-03-27) 领先 0 项，持平 0 项，平均分差 +50.07。

OpenAI · 2025-08-07 · 基础大模型

OpenAI · 2025-03-27 · 聊天大模型

GPT-53 项(100%)(0%)0 项GPT-4o(2025-03-27)

评测分数

按能力类目分组，每组内按分差大小排列；共 3 项。

GPT-5 领先 2/2

评测项	GPT-5	GPT-4o(2025-03-27)	分差
ARC-AGI	65.7030 / 65	8.8060 / 65	+56.90
GPQA Diamond	87.3037 / 178	66.90124 / 178	+20.40

GPT-5 领先 1/1

评测项	GPT-5	GPT-4o(2025-03-27)	分差
AIME2025	99.609 / 106	26.70101 / 106	+72.90

3 个共同 benchmark 上，GPT-5 平均高出 50.07 分。

单项差距最大的 benchmark：AIME2025 — GPT-5 99.60，GPT-4o(2025-03-27) 26.70（分差 +72.90）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。