GPT-5vsGPT-4o(2025-03-27)

在 3 个共同 benchmark 中,GPT-5 整体领先:GPT-5 领先 3 项,GPT-4o(2025-03-27) 领先 0 项,持平 0 项,平均分差 +50.07。

OpenAI
GPT-5

OpenAI · 2025-08-07 · 基础大模型

OpenAI
GPT-4o(2025-03-27)

OpenAI · 2025-03-27 · 聊天大模型

GPT-53 (100%)(0%)0 GPT-4o(2025-03-27)

评测分数

按能力类目分组,每组内按分差大小排列;共 3 项。

General Knowledge

GPT-5 领先 2/2
评测项GPT-5GPT-4o(2025-03-27)分差
ARC-AGI65.7030 / 658.8060 / 65+56.90
GPQA Diamond87.3037 / 17866.90124 / 178+20.40

Math and Reasoning

GPT-5 领先 1/1
评测项GPT-5GPT-4o(2025-03-27)分差
AIME202599.609 / 10626.70101 / 106+72.90

规格对比

字段GPT-5GPT-4o(2025-03-27)
发布机构OpenAIOpenAI
发布时间2025-08-072025-03-27
模型类型基础大模型聊天大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度400K128K
最大输出128K4K

小结

  • GPT-5在以下类目领先:General Knowledge (2/2)、Math and Reasoning (1/1)

3 个共同 benchmark 上,GPT-5 平均高出 50.07 分。

单项差距最大的 benchmark:AIME2025 — GPT-5 99.60,GPT-4o(2025-03-27) 26.70(分差 +72.90)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。