GPT-5.4vsClaude Opus 4.6

在 14 个共同 benchmark 中，GPT-5.4 整体领先：GPT-5.4 领先 9 项，Claude Opus 4.6 领先 4 项，持平 1 项，平均分差 +0.06。

OpenAI · 2026-03-05 · 多模态大模型

Anthropic · 2026-02-05 · 推理大模型

GPT-5.49 项(64%)持平1(29%)4 项Claude Opus 4.6

评测分数

按能力类目分组，每组内按分差大小排列；共 14 项。

GPT-5.4 领先 4/6

评测项	GPT-5.4	Claude Opus 4.6	分差
ARC-AGI-2	77.109 / 62Normal (No Tools)	66.3017 / 62Extended (no tools)	+10.80
LiveBench	80.282 / 115Deep Thinking (No Tools)	76.338 / 115Thinking High (No Tools)	+3.95
ARC-AGI	93.709 / 68Normal (No Tools)	9213 / 68Extended (no tools)	+1.70
GPQA Diamond	92.8011 / 187极高强度思考（无工具）	91.3115 / 187Extended (no tools)	+1.49
HLE	52.1021 / 172极高强度思考（工具）	5318 / 172Extended (with tools, internet)	-0.90
ARC-AGI-3	07 / 9Thinking High (No Tools)	04 / 9最高（无工具）	持平

GPT-5.4 领先 2/3

评测项	GPT-5.4	Claude Opus 4.6	分差
Terminal Bench 2.0	75.104 / 47极高强度思考（工具）	65.4011 / 47Extended (with tools)	+9.70
MCP-Atlas	70.6014 / 27极高强度思考（工具）	76.8010 / 27Deep Thinking (With Tools)	-6.20
OSWorld-Verified	7512 / 24极高强度思考（工具）	72.7015 / 24Extended (with tools)	+2.30

GPT-5.4 领先 2/2

评测项	GPT-5.4	Claude Opus 4.6	分差
FrontierMath	47.605 / 60极高强度思考（无工具）	40.707 / 60最高（无工具）	+6.90
FrontierMath - Tier 4	27.1011 / 80极高强度思考（无工具）	22.9012 / 80最高（无工具）	+4.20

Claude Opus 4.6 领先 1/1

评测项	GPT-5.4	Claude Opus 4.6	分差
τ²-Bench - Telecom	64.3030 / 35Normal (With Tools)	99.252 / 35Extended (with tools)	-34.95

Claude Opus 4.6 领先 1/1

评测项	GPT-5.4	Claude Opus 4.6	分差
BrowseComp	82.7015 / 53极高强度思考（工具）	8411 / 53Thinking (With Tools + Internet)	-1.30

GPT-5.4 领先 1/1

评测项	GPT-5.4	Claude Opus 4.6	分差
Pinch Bench	90.501 / 37Thinking (With Tools)	87.407 / 37Thinking (With Tools)	+3.10

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5.4在以下类目领先:General Knowledge (4/6)、AI Agent - Tool Usage (2/3)、Math and Reasoning (2/2)、Claw-style Agent Evaluation (1/1)
Claude Opus 4.6在以下类目领先:Agent Level Benchmark (1/1)、AI Agent - Information Search (1/1)

14 个共同 benchmark 上，GPT-5.4 平均高出 0.06 分。

单项差距最大的 benchmark：τ²-Bench - Telecom — GPT-5.4 64.30，Claude Opus 4.6 99.25（分差 -34.95）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。