Opus 4.7vsGPT-5.4

在 13 个共同 benchmark 中，GPT-5.4 整体领先：Opus 4.7 领先 5 项，GPT-5.4 领先 7 项，持平 1 项，平均分差 +0.01。

Anthropic · 2026-04-16 · 推理大模型

OpenAI · 2026-03-05 · 多模态大模型

Opus 4.75 项(38%)持平1(54%)7 项GPT-5.4

评测分数

按能力类目分组，每组内按分差大小排列；共 13 项。

GPT-5.4 领先 3/6

评测项	Opus 4.7	GPT-5.4	分差
LiveBench	76.917 / 115Deep Thinking (No Tools)	80.282 / 115Deep Thinking (No Tools)	-3.37
HLE	54.7013 / 172Extended (with tools)	52.1021 / 172极高强度思考（工具）	+2.60
GPQA Diamond	94.204 / 187Extended (no tools)	92.8011 / 187极高强度思考（无工具）	+1.40
ARC-AGI-2	75.8011 / 62最高（无工具）	77.109 / 62Normal (No Tools)	-1.30
ARC-AGI	93.5011 / 68Thinking High (No Tools)	93.709 / 68Normal (No Tools)	-0.20
ARC-AGI-3	08 / 9Thinking High (No Tools)	07 / 9Thinking High (No Tools)	持平

Opus 4.7 领先 2/3

评测项	Opus 4.7	GPT-5.4	分差
MCP-Atlas	79.107 / 27Deep Thinking (With Tools)	70.6014 / 27极高强度思考（工具）	+8.50
Terminal Bench 2.0	69.406 / 47Extended (with tools)	75.104 / 47极高强度思考（工具）	-5.70
OSWorld-Verified	7810 / 24Extended (with tools)	7512 / 24极高强度思考（工具）	+3

GPT-5.4 领先 2/2

评测项	Opus 4.7	GPT-5.4	分差
FrontierMath - Tier 4	22.9012 / 80极高强度思考（无工具）	27.1011 / 80极高强度思考（无工具）	-4.20
FrontierMath	43.806 / 60极高强度思考（无工具）	47.605 / 60极高强度思考（无工具）	-3.80

GPT-5.4 领先 1/1

评测项	Opus 4.7	GPT-5.4	分差
BrowseComp	79.3017 / 53Extended (with tools)	82.7015 / 53极高强度思考（工具）	-3.40

Opus 4.7 领先 1/1

评测项	Opus 4.7	GPT-5.4	分差
SWE-Bench Pro - Public	64.307 / 54Extended (with tools)	57.7017 / 54极高强度思考（无工具）	+6.60

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

Opus 4.7在以下类目领先:AI Agent - Tool Usage (2/3)、Coding and Software Engineer (1/1)
GPT-5.4在以下类目领先:General Knowledge (3/6)、Math and Reasoning (2/2)、AI Agent - Information Search (1/1)

13 个共同 benchmark 上，Opus 4.7 平均高出 0.01 分。

单项差距最大的 benchmark：MCP-Atlas — Opus 4.7 79.10，GPT-5.4 70.60（分差 +8.50）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。