GPT-5.1vsClaude Opus 4

在 9 个共同 benchmark 中,GPT-5.1 整体领先:GPT-5.1 领先 8 项,Claude Opus 4 领先 1 项,持平 0 项,平均分差 +13.07。

OpenAI
GPT-5.1

OpenAI · 2025-11-12 · 推理大模型

Anthropic
Claude Opus 4

Anthropic · 2025-05-23 · 推理大模型

GPT-5.18 (89%)(11%)1 Claude Opus 4

评测分数

按能力类目分组,每组内按分差大小排列;共 9 项。

General Knowledge

GPT-5.1 领先 4/4
评测项GPT-5.1Claude Opus 4分差
ARC-AGI72.8025 / 6535.7048 / 65+37.10
HLE26.5083 / 15710.70129 / 157+15.80
ARC-AGI-217.6033 / 598.6039 / 59+9
GPQA Diamond88.1028 / 17879.6079 / 178+8.50

Math and Reasoning

GPT-5.1 领先 3/3
评测项GPT-5.1Claude Opus 4分差
FrontierMath26.7013 / 60Thinking High (With Tools)4.5039 / 60+22.20
AIME20259428 / 10675.5065 / 106+18.50
FrontierMath - Tier 412.5029 / 80Thinking High (With Tools)4.2040 / 80+8.30

Coding and Software Engineer

GPT-5.1 领先 1/1
评测项GPT-5.1Claude Opus 4分差
SWE-bench Verified76.3030 / 10872.5048 / 108+3.80

常识推理

Claude Opus 4 领先 1/1
评测项GPT-5.1Claude Opus 4分差
Simple Bench53.2010 / 2758.807 / 27-5.60

规格对比

字段GPT-5.1Claude Opus 4
发布机构OpenAIAnthropic
发布时间2025-11-122025-05-23
模型类型推理大模型推理大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度400K200K
最大输出128K32K

小结

  • GPT-5.1在以下类目领先:General Knowledge (4/4)、Math and Reasoning (3/3)、Coding and Software Engineer (1/1)
  • Claude Opus 4在以下类目领先:常识推理 (1/1)

9 个共同 benchmark 上,GPT-5.1 平均高出 13.07 分。

单项差距最大的 benchmark:ARC-AGI — GPT-5.1 72.80,Claude Opus 4 35.70(分差 +37.10)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。