GPT-5vsClaude Opus 4

在 12 个共同 benchmark 中，GPT-5 整体领先：GPT-5 领先 11 项，Claude Opus 4 领先 1 项，持平 0 项，平均分差 +16.28。

OpenAI · 2025-08-07 · 基础大模型

Anthropic · 2025-05-23 · 推理大模型

GPT-511 项(92%)(8%)1 项Claude Opus 4

评测分数

按能力类目分组，每组内按分差大小排列；共 12 项。

GPT-5 领先 4/4

评测项	GPT-5	Claude Opus 4	分差
ARC-AGI	65.7033 / 68	35.7051 / 68	+30
HLE	35.2073 / 172	10.70144 / 172	+24.50
GPQA Diamond	87.3040 / 187	79.6085 / 187	+7.70
ARC-AGI-2	9.9040 / 62	8.6042 / 62	+1.30

GPT-5 领先 4/4

评测项	GPT-5	Claude Opus 4	分差
IMO-ProofBench	592 / 16	2.9016 / 16	+56.10
AIME2025	99.609 / 107	75.5066 / 107	+24.10
FrontierMath	24.8015 / 60	4.5039 / 60	+20.30
FrontierMath - Tier 4	12.5029 / 80Thinking High (No Tools)	4.2040 / 80	+8.30

GPT-5 领先 2/2

评测项	GPT-5	Claude Opus 4	分差
Aider-Polyglot	881 / 59Thinking High (No Tools)	70.7016 / 59Normal (No Tools)	+17.30
τ²-Bench	8015 / 43	72.5023 / 43	+7.50

GPT-5 领先 1/1

评测项	GPT-5	Claude Opus 4	分差
SWE-bench Verified	72.8050 / 112	72.5052 / 112	+0.30

Claude Opus 4 领先 1/1

评测项	GPT-5	Claude Opus 4	分差
Simple Bench	56.7020 / 63Thinking High (No Tools)	58.8017 / 63Thinking (No Tools)	-2.10

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5在以下类目领先:General Knowledge (4/4)、Math and Reasoning (4/4)、Agent Level Benchmark (2/2)、Coding and Software Engineer (1/1)
Claude Opus 4在以下类目领先:常识推理 (1/1)

12 个共同 benchmark 上，GPT-5 平均高出 16.28 分。

单项差距最大的 benchmark：IMO-ProofBench — GPT-5 59，Claude Opus 4 2.90（分差 +56.10）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。