GPT-5vsClaude Opus 4

在 11 个共同 benchmark 中,GPT-5 整体领先:GPT-5 领先 10 项,Claude Opus 4 领先 1 项,持平 0 项,平均分差 +16.18。

OpenAI
GPT-5

OpenAI · 2025-08-07 · 基础大模型

Anthropic
Claude Opus 4

Anthropic · 2025-05-23 · 推理大模型

GPT-510 (91%)(9%)1 Claude Opus 4

评测分数

按能力类目分组,每组内按分差大小排列;共 11 项。

General Knowledge

GPT-5 领先 4/4
评测项GPT-5Claude Opus 4分差
ARC-AGI65.7030 / 6535.7048 / 65+30
HLE35.2060 / 15710.70129 / 157+24.50
GPQA Diamond87.3037 / 17879.6079 / 178+7.70
ARC-AGI-29.9037 / 598.6039 / 59+1.30

Math and Reasoning

GPT-5 领先 4/4
评测项GPT-5Claude Opus 4分差
IMO-ProofBench592 / 162.9016 / 16+56.10
AIME202599.609 / 10675.5065 / 106+24.10
FrontierMath24.8015 / 604.5039 / 60+20.30
FrontierMath - Tier 412.5029 / 80Thinking High (No Tools)4.2040 / 80+8.30

Agent Level Benchmark

GPT-5 领先 1/1
评测项GPT-5Claude Opus 4分差
τ²-Bench8015 / 4072.5022 / 40+7.50

Coding and Software Engineer

GPT-5 领先 1/1
评测项GPT-5Claude Opus 4分差
SWE-bench Verified72.8046 / 10872.5048 / 108+0.30

常识推理

Claude Opus 4 领先 1/1
评测项GPT-5Claude Opus 4分差
Simple Bench56.708 / 2758.807 / 27-2.10

规格对比

字段GPT-5Claude Opus 4
发布机构OpenAIAnthropic
发布时间2025-08-072025-05-23
模型类型基础大模型推理大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度400K200K
最大输出128K32K

小结

  • GPT-5在以下类目领先:General Knowledge (4/4)、Math and Reasoning (4/4)、Agent Level Benchmark (1/1)、Coding and Software Engineer (1/1)
  • Claude Opus 4在以下类目领先:常识推理 (1/1)

11 个共同 benchmark 上,GPT-5 平均高出 16.18 分。

单项差距最大的 benchmark:IMO-ProofBench — GPT-5 59,Claude Opus 4 2.90(分差 +56.10)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。