GPT-5.1vsClaude Opus 4

在 9 个共同 benchmark 中，GPT-5.1 整体领先：GPT-5.1 领先 8 项，Claude Opus 4 领先 1 项，持平 0 项，平均分差 +13.07。

OpenAI · 2025-11-12 · 推理大模型

Anthropic · 2025-05-23 · 推理大模型

GPT-5.18 项(89%)(11%)1 项Claude Opus 4

评测分数

按能力类目分组，每组内按分差大小排列；共 9 项。

GPT-5.1 领先 4/4

评测项	GPT-5.1	Claude Opus 4	分差
ARC-AGI	72.8028 / 68	35.7051 / 68	+37.10
HLE	26.5097 / 172	10.70144 / 172	+15.80
ARC-AGI-2	17.6036 / 62	8.6042 / 62	+9
GPQA Diamond	88.1031 / 187	79.6085 / 187	+8.50

GPT-5.1 领先 3/3

评测项	GPT-5.1	Claude Opus 4	分差
FrontierMath	26.7013 / 60Thinking High (With Tools)	4.5039 / 60	+22.20
AIME2025	9428 / 107	75.5066 / 107	+18.50
FrontierMath - Tier 4	12.5029 / 80Thinking High (With Tools)	4.2040 / 80	+8.30

GPT-5.1 领先 1/1

评测项	GPT-5.1	Claude Opus 4	分差
SWE-bench Verified	76.3034 / 112	72.5052 / 112	+3.80

Claude Opus 4 领先 1/1

评测项	GPT-5.1	Claude Opus 4	分差
Simple Bench	53.2023 / 63Thinking High (No Tools)	58.8017 / 63Thinking (No Tools)	-5.60

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5.1在以下类目领先:General Knowledge (4/4)、Math and Reasoning (3/3)、Coding and Software Engineer (1/1)
Claude Opus 4在以下类目领先:常识推理 (1/1)

9 个共同 benchmark 上，GPT-5.1 平均高出 13.07 分。

单项差距最大的 benchmark：ARC-AGI — GPT-5.1 72.80，Claude Opus 4 35.70（分差 +37.10）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。