热门大模型对比：Opus 4.7与Opus 4.6对比有哪些提升和下降的地方？Opus 4.7与Opus 4.6全面对比分析

Claude Opus 4.7 于 2026 年 4 月 16 日发布，距 Opus 4.6 约两个月，定价维持不变（API 输入 $5/M tokens，输出 $25/M tokens）。这是一次以编程与 Agent 能力为核心驱动力的迭代，视觉能力同步完成了代际级跃升，最大输出长度也实现翻倍。但模型在 Token 消耗效率方面存在可感知的变化，迁移前需要关注。

主要提升

① 编程与 Agentic 任务：多项基准跃升，最高幅度超 3 倍

Opus 4.7 是本次迭代改进最集中的领域。Cursor 内部基准 CursorBench 显示其通过率从 Opus 4.6 的 58% 跃升至 70%；Rakuten-SWE-Bench 则报告 4.7 解决生产任务的数量是 4.6 的 3 倍。来自 Notion、Devin、Factory 等多家 Agent 平台的早期测试反馈一致指向同一方向：4.7 在长流程任务中更少中途停止、更少工具调用错误、更强的执行连贯性。

② 视觉能力：分辨率超 3 倍提升，打开 computer-use 新场景

Opus 4.7 支持最长边达 2,576 像素（约 3.75 MP）的图像输入，而前代模型约为 800 像素量级。这一提升并非渐进式改进，而是直接让此前受限于图像清晰度的场景（密集截图解析、复杂技术图表读取、化学结构识别等）变得可用。XBOW 的测试数据最为直观：视觉准确率基准从 Opus 4.6 的 54.5% 大幅跃升至 98.5%。

③ 最大输出长度翻倍：64K → 128K tokens

Opus 4.7 单次最大输出长度较 4.6 翻倍，对需要模型一次性生成大量代码、长篇文档或复杂结构化报告的场景有直接意义。配合 Agent 长任务能力的整体提升，单次执行完整度进一步增强。

④ 指令遵从：精确执行带来的"双刃剑"效应

Opus 4.7 的指令遵从能力大幅增强，官方明确提示：为旧版模型编写的提示词可能在 4.7 上产生意外结果——因为 4.6 倾向于对模糊指令进行宽泛解读，而 4.7 会字面执行。这意味着已有工作流的开发者需要重新调校 Prompt。

⑤ 抽象推理：ARC-AGI-2 得分近乎翻倍

ARC-AGI-2 得分从 Opus 4.6 的 37.6% 提升至 68.8%，接近翻倍。这是所有基准中提升幅度最大的单项，也是模型通用推理能力跃升的有力信号。

⑥ 文件系统记忆：跨会话任务连贯性改善

Opus 4.7 更善于利用文件系统存储关键上下文，在多轮、跨会话的长期任务中能自动调取历史记录，减少用户每次重新铺垫背景的负担。

⑦ 新增 xhigh 推理等级

effort 参数新增 xhigh 档位，位于 high 与 max 之间，为开发者提供更精细的推理深度控制。Claude Code 默认推理等级已上调为 xhigh。

主要劣化与注意事项

① Tokenizer 更新导致 Token 消耗增加

Opus 4.7 采用了新版 Tokenizer，相同输入可能映射到约 1.0–1.35 倍的 Token 数量，叠加 xhigh 等级下更多的思考 Token 输出，实际 API 账单可能高于名义定价所呈现的水平。早期用户反馈也印证了这一点：有开发者指出 xhigh 默认配置下的 Token 消耗"相当可观"。

② 部分安全性指标略有下滑

官方安全评估报告显示，4.7 在某些安全维度（如受控物质的详细信息输出倾向）相比 4.6 略有退步，整体对齐水平被评定为"基本良好但尚不理想"。Mythos Preview 仍是 Anthropic 对齐表现最佳的模型。

社区反馈摘要

来自知乎的早期评估认为，4.7 的能力进步"体感上不及从 4.5 到 4.6 那一跳明显"，但考虑到 4.6 基础已经很高，4.7 在编程密集场景的提升依然值得认可。部分开发者注意到 ARC-AGI-2 的大幅跃升，并将其解读为 Anthropic 在通用推理层面补强的信号。X/Threads 社区中有开发者表示"4.7 感觉更智能、更自主、更精准"，但也有声音提示在适应新模型行为前有一定的学习曲线。定价不变但实际 Token 消耗可能增加，是目前对话中出现频率最高的实用层面顾虑。

迁移关键提示

重新评估 Prompt：4.7 对指令的字面执行倾向更强，旧版 Prompt 建议逐一验证；
监控 Token 消耗：新 Tokenizer + xhigh 默认配置，建议在真实流量上测量净成本变化再决定推理等级；
视觉场景可积极升级：图像分辨率的大幅提升让此前勉强可用的场景变为可靠方案；
长输出场景受益明显：最大输出翻倍至 128K，依赖单次大量生成的工作流可重新评估任务拆分策略。

Benchmark	Opus 4.7	Claude Opus 4.6
ARC-AGI 综合评估	92.00Thinking Level · High	92.00Extended Thinking
ARC-AGI-2 综合评估	75.80Thinking Level · High	66.30Extended Thinking
GPQA Diamond 综合评估	94.20Extended Thinking	91.31Extended Thinking
HLE 综合评估	54.70Extended Thinking ｜ Tools	53.00Extended Thinking ｜ Tools
LiveBench 综合评估	76.91Deep Thinking Mode	76.33Thinking Level · High
MMLU 综合评估	91.50Standard Mode	91.05Extended Thinking
SWE-bench Verified 编程与软件工程	87.60Extended Thinking ｜ Tools	80.84Extended Thinking ｜ Tools
FrontierMath 数学推理	43.80Thinking Level · Extra High	40.70Thinking Level · High
FrontierMath - Tier 4 数学推理	22.90Thinking Level · Extra High	22.90Thinking Level · High
BrowseComp AI Agent - 信息收集	79.30Extended Thinking ｜ Tools	84.00Thinking Enabled ｜ Tools
MCP-Atlas AI Agent - 工具使用	79.10Deep Thinking Mode ｜ Tools	76.80Deep Thinking Mode ｜ Tools
OSWorld-Verified AI Agent - 工具使用	78.00Extended Thinking ｜ Tools	72.70Extended Thinking ｜ Tools
Terminal Bench 2.0 AI Agent - 工具使用	69.40Extended Thinking ｜ Tools	65.40Extended Thinking ｜ Tools

Benchmark

Opus 4.7

Claude Opus 4.6

ARC-AGI

综合评估

92.00Thinking Level · High

92.00Extended Thinking

ARC-AGI-2

综合评估

75.80Thinking Level · High

66.30Extended Thinking

GPQA Diamond

综合评估

94.20Extended Thinking

91.31Extended Thinking

HLE

综合评估

54.70Extended Thinking ｜ Tools

53.00Extended Thinking ｜ Tools

LiveBench

综合评估

76.91Deep Thinking Mode

76.33Thinking Level · High

MMLU

综合评估

91.50Standard Mode

91.05Extended Thinking

SWE-bench Verified

编程与软件工程

87.60Extended Thinking ｜ Tools

80.84Extended Thinking ｜ Tools

FrontierMath

数学推理

43.80Thinking Level · Extra High

40.70Thinking Level · High

FrontierMath - Tier 4

数学推理

22.90Thinking Level · Extra High

22.90Thinking Level · High

BrowseComp

AI Agent - 信息收集

79.30Extended Thinking ｜ Tools

84.00Thinking Enabled ｜ Tools

MCP-Atlas

AI Agent - 工具使用

79.10Deep Thinking Mode ｜ Tools

76.80Deep Thinking Mode ｜ Tools

OSWorld-Verified

AI Agent - 工具使用

78.00Extended Thinking ｜ Tools

72.70Extended Thinking ｜ Tools

Terminal Bench 2.0

AI Agent - 工具使用

69.40Extended Thinking ｜ Tools

65.40Extended Thinking ｜ Tools

Detailed feature breakdown

Licensing, MoE architecture, and multi-modality support.

Features & specs	Opus 4.7Anthropic	Claude Opus 4.6Anthropic
Core specsRelease	2026-04-16	2026-02-05
Context length	1000K	1000K
Max output	131072	65536
MoE	No	No
LicenseCode Open Source	Not provided	Not provided
Weights Open Source	Not provided	Not provided
Commercial use	不开源	不开源
Modality supportText Input/Output	/	/
Image Input/Output	/	/
ResourcesPaper / report	Introducing Claude Opus 4.7	Introducing Claude Opus 4.6
DataLearner blog	Anthropic发布Claude Opus 4.7：编程能力大幅跃升，视觉分辨率提升超3倍，首个搭载网络安全防护机制的旗舰模型！	Not provided

Opus 4.7与Opus 4.6对比有哪些提升和下降的地方？Opus 4.7与Opus 4.6全面对比分析

主要提升

主要劣化与注意事项

社区反馈摘要

迁移关键提示

Capability profile

Performance benchmarks

Benchmark score table

API price comparison

Detailed feature breakdown