Opus 4.7 评测深度分析

Claude Opus 4.7 深度评测：SWE-bench Verified 87.60（全榜第2）、GPQA Diamond 94.20（第4）、HLE 54.70（第5）。代码Agent能力单代跃升近7分，OSWorld排名第2，详解与GPT-5.4、Gemini 3.1 Pro的竞品差距。

Claude Opus 4.7 于 2026 年 4 月 16 日发布，是 Opus 系列迄今最强版本。从本页收录的 8 项可比基准来看，Opus 4.7 的最大亮点集中在软件工程和桌面 Agent 两个方向，而在信息检索类 Agent 任务（BrowseComp）上，它是三大竞品中排名最低的。这种"结构性优势"而非"全面碾压"的格局，是理解这款模型定位的核心。

软件工程：本次升级的最强信号

SWE-bench Verified 是当前代码 Agent 能力最具说服力的公开评测之一。Opus 4.7 以 87.60 分（全榜第 2，共 97 个模型） 拿下该项目的旗舰成绩，比 Opus 4.6 的 80.84 提升了整整 6.76 个百分点——这在 SWE-bench 上属于非常显著的单代进步，因为该榜单头部模型的差距通常以 1–3 分计。SWE-Bench Pro（更难的真实工程任务集）上，Opus 4.7 以 64.30 分排名第 2，领先 GPT-5.4 的 57.70 和 Gemini 3.1 Pro 的 54.20 超过 6 分。

这两项数据的组合意味着：Opus 4.7 的代码能力优势不仅来自对已知题库的优化，在更贴近真实工程环境的困难任务上同样领先，且差距更大。若以 SWE 系列评测作为衡量标准，Opus 4.7 是目前公开可用的最强代码 Agent 模型。

综合推理：GPQA 进入 94 分区间，HLE 工具调用全榜第五

GPQA Diamond 上，Opus 4.7 以 94.20 分排名第 4（共 167 个模型），超过 GPT-5.4 的 92.80，仅以 0.10 分之差落后于 Gemini 3.1 Pro 的 94.30。从 Opus 4.1 的 81 分到 Opus 4.7 的 94.20，GPQA 成绩在四个版本内提升了 13.2 个百分点，显示出 Anthropic 在深度专业推理方向上持续的、非平台期的进步。

HLE（Humanity's Last Exam）是当前公认最难的综合知识基准，Opus 4.7 配合工具调用达到 54.70 分，全榜第 5（不用工具时为 46.90，排第 20）。工具调用带来的 7.80 分增益是三大竞品中最高的，说明 Opus 4.7 的推理能力与工具使用的协同效果优异。GPT-5.4 和 Gemini 3.1 Pro 的带工具 HLE 分别为 52.10 和 51.40，均低于 Opus 4.7。

Agent 能力：OSWorld 第二，Terminal Bench 中游，BrowseComp 是短板

桌面操作类任务（OSWorld-Verified）上，Opus 4.7 以 78.00 分排名第 2（共 12 个模型），超过 GPT-5.4 的 75.00，Gemini 3.1 Pro 无可比数据。这与 Anthropic 官方公告中提到的视觉分辨率大幅提升（支持长边最高 2,576 像素，较前代提升超 3 倍）高度吻合，视觉 Agent 场景的实际性能改善有基准支撑。

Terminal Bench 2.0 上，Opus 4.7 以 69.40 分排名第 4，GPT-5.4 以 75.10 领跑，Gemini 3.1 Pro 以 68.50 紧随 Opus 4.7。这是本页所有评测中，Opus 4.7 相对于 GPT-5.4 差距最显著的项目（5.70 分），说明在需要持续命令行操作和系统交互的任务上，GPT-5.4 的优势更为突出。

BrowseComp（网络信息检索 Agent）是 Opus 4.7 相对最弱的方向：79.30 分，全榜第 6，而 Gemini 3.1 Pro 以 85.90 领先（且使用联网工具），GPT-5.4 以 82.70 居中。BrowseComp 的本质是需要跨多步骤、多来源拼接信息的搜索推理，Gemini 凭借 Google 搜索原生整合具有天然优势，Opus 4.7 在这一方向暂时处于三方中的末位。

代际进化曲线：编程能力在 4.7 出现拐点式跃升

回看 Opus 系列的历史轨迹，有一个结构性特征值得关注：

版本	GPQA Diamond	SWE-bench Verified	Terminal Bench 2.0
Opus 4.1	81.00	74.50（并行思考）	—
Opus 4.5	87.00	80.90	59.30
Opus 4.6	91.31	80.84	65.40
Opus 4.7	94.20	87.60	69.40

GPQA 的进步是线性且持续的，每一代约提升 3–4 分；但 SWE-bench 在 4.5 → 4.6 几乎原地踏步（80.90 → 80.84），却在 4.6 → 4.7 跳升近 7 分。这个"蓄势后爆发"的模式，结合 Anthropic 官方提到的指令遵循和输出验证能力升级，指向的是 Opus 4.7 在工程 Agent 的执行可靠性上做了针对性突破，而非均匀的全面进步。

定价与性价比：与 Opus 4.6 同价，性价比实质提升

Opus 4.7 保持与 Opus 4.6 完全相同的定价：输入 $5 / 1M tokens，输出 $25 / 1M tokens。相比之下，GPT-5.4 的标准输入为 $2.5、输出为 $15（272K 以内），Gemini 3.1 Pro 为输入 $2、输出 $12（200K 以内）——两者在单价上均低于 Opus 4.7，但覆盖的评测范围和顶端能力上限也相应更低。

需要注意的是，Anthropic 同步更新了 tokenizer，相同输入内容的 token 消耗将增加约 1.0–1.35 倍，同时高 effort 模式下思考 token 的产出量也会增加，实际使用成本可能高于 Opus 4.6。是否升级需结合具体任务类型和 effort 设置评估。

结构性判断

Opus 4.7 是一个为工程 Agent 场景深度优化的版本：SWE-bench 系列两项同时排名第二、OSWorld 排名第二，且在 HLE+工具组合下综合推理全场最强，都指向同一个用户群体——需要持续运行、复杂任务分解和自主验证的代码/工程 Agent 开发者。

对于需要网页信息检索（BrowseComp）或纯命令行任务（Terminal Bench）的用例，GPT-5.4 或 Gemini 3.1 Pro 提供了更有竞争力的替代选项。Opus 4.7 的护城河不在"全能"，而在"代码+工具调用+长程 Agent 可靠性"的交集地带。

以上数据来源于 DataLearner 收录的公开评测结果及 Anthropic 官方发布说明（2026 年 4 月 16 日）。评测模式细分请参见下方各项具体数据。

评测结果

Opus 4.7

评测结果

综合评估

共 17 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

扩展

94.20

4 / 181

ARC-AGI

思考水平·低

14 / 67

ARC-AGI

中

14 / 67

ARC-AGI

高

93.50

10 / 67

ARC-AGI

思考水平·Max

12 / 67

MMLU

常规模式

91.50

6 / 65

LiveBench

思考水平·低

70.09

39 / 115

LiveBench

中

72.31

27 / 115

LiveBench

高

74.89

18 / 115

LiveBench

深度思考模式

76.91

7 / 115

ARC-AGI-2

思考水平·低

62.10

18 / 61

ARC-AGI-2

中

67.50

15 / 61

ARC-AGI-2

高

68.30

14 / 61

ARC-AGI-2

思考水平·Max

75.80

10 / 61

HLE

扩展

46.90

34 / 166

HLE

扩展工具

54.70

10 / 166

ARC-AGI-3

高

7 / 8

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

扩展工具

87.60

5 / 110

SWE-Bench Pro - Public

扩展工具

64.30

6 / 49

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

常规模式

61.70

13 / 63

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

FrontierMath

极高

43.80

6 / 60

FrontierMath - Tier 4

极高

22.90

12 / 80

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

扩展工具

79.30

15 / 50

AI Agent - 工具使用

共 4 项评测

评测名称 / 模式

得分

排名/总数

MCP-Atlas

深度思考模式工具

79.10

6 / 26

OSWorld-Verified

扩展工具

8 / 20

TerminalBench 2.1

高工具

69.70

16 / 22

Terminal Bench 2.0

扩展工具

69.40

6 / 46

与其他模型对比

竞品对比

Opus 4.7 与同类主流模型的评测得分对比

Opus 4.7GPT-5.4 Gemini 3.1 Pro Preview

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

11 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	Opus 4.7当前	GPT-5.4	Gemini 3.1 Pro Preview
ARC-AGI 综合评估	92.00思考水平·高	93.70常规模式	--
ARC-AGI-2 综合评估	75.80思考水平·高	77.10常规模式	--
HLE 综合评估	54.70扩展思考｜工具	52.10思考水平·极高｜工具	51.40思考水平·高｜工具
LiveBench 综合评估	76.91深度思考模式	80.28深度思考模式	79.93思考水平·高
SWE-Bench Pro - Public 编程与软件工程	64.30扩展思考｜工具	--	54.20思考水平·高｜工具
SWE-bench Verified 编程与软件工程	87.60扩展思考｜工具	--	80.60思考水平·高｜工具
FrontierMath - Tier 4 数学推理	22.90思考水平·极高	27.10思考水平·极高	--
BrowseComp AI Agent - 信息收集	79.30扩展思考｜工具	82.70思考水平·极高｜工具	85.90思考水平·高｜工具
MCP-Atlas AI Agent - 工具使用	79.10深度思考模式｜工具	70.60思考水平·极高｜工具	--
OSWorld-Verified AI Agent - 工具使用	78.00扩展思考｜工具	75.00思考水平·极高｜工具	--
Terminal Bench 2.0 AI Agent - 工具使用	69.40扩展思考｜工具	75.10思考水平·极高｜工具	68.50思考水平·高｜工具

Opus 4.7 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

GPT-5.4: 标准价适用于 <= 272K

Gemini 3.1 Pro Preview: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
Opus 4.7	Anthropic	$5 / 1M tokens	$25 / 1M tokens	—
GPT-5.4	OpenAI	$2.5 / 1M tokens	$15 / 1M tokens	<= 272K
Gemini 3.1 Pro Preview	Google Deep Mind	$2 / 1M tokens	$12 / 1M tokens	<= 200K

历代版本对比

Opus 4.7 系列各版本的评测成绩纵向对比

Opus 4.7Claude Opus 4.6 Opus 4.5 Opus 4.1

评测类别:

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	Opus 4.7当前	Claude Opus 4.6	Opus 4.5	Opus 4.1
ARC-AGI 综合评估	92.00思考水平·高	92.00扩展思考	--	--
ARC-AGI-2 综合评估	75.80思考水平·高	66.30扩展思考	--	--
GPQA Diamond 综合评估	94.20扩展思考	91.31扩展思考	--	81.00扩展思考
HLE 综合评估	54.70扩展思考｜工具	53.00扩展思考｜工具	43.20扩展思考｜工具	--
LiveBench 综合评估	76.91深度思考模式	--	75.9664K	61.8132K
SWE-bench Verified 编程与软件工程	87.60扩展思考｜工具	80.84扩展思考｜工具	80.90扩展思考｜工具	74.50扩展思考｜工具
Simple Bench 常识推理	61.70常规模式	67.60常规模式	62.00扩展思考	--
FrontierMath 数学推理	43.80思考水平·极高	40.70思考水平·高	--	7.20扩展思考
FrontierMath - Tier 4 数学推理	22.90思考水平·极高	22.90思考水平·高	4.2032K	4.20扩展思考
BrowseComp AI Agent - 信息收集	79.30扩展思考｜工具	84.00开启思考｜工具	--	--
MCP-Atlas AI Agent - 工具使用	79.10深度思考模式｜工具	76.80深度思考模式｜工具	69.80思考水平·高｜工具	--
OSWorld-Verified AI Agent - 工具使用	78.00扩展思考｜工具	72.70扩展思考｜工具	--	--

其余 1 个 benchmark 仍可在上方图表中查看。

单评测历史趋势图

当前查看：ARC-AGI · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

Opus 4.7 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Claude Opus 4.6: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
Opus 4.7	Anthropic	$5 / 1M tokens	$25 / 1M tokens	—
Claude Opus 4.6	Anthropic	$5 / 1M tokens	$25 / 1M tokens	<= 200K
Opus 4.5	Facebook AI研究实验室	$5 / 1M tokens	$25 / 1M tokens	—
Opus 4.1	Anthropic	$15 / 1M tokens	$75 / 1M tokens	—

数据来源

anthropic.comanthropic.com epoch.aiepoch.ai arcprize.orgarcprize.org