热门大模型对比：Opus 4.7与Opus 4.6对比有哪些提升和下降的地方？Opus 4.7与Opus 4.6全面对比分析

Claude Opus 4.7 于 2026 年 4 月 16 日发布，距 Opus 4.6 约两个月，定价维持不变（API 输入 $5/M tokens，输出 $25/M tokens）。这是一次以编程与 Agent 能力为核心驱动力的迭代，视觉能力同步完成了代际级跃升，最大输出长度也实现翻倍。但模型在 Token 消耗效率方面存在可感知的变化，迁移前需要关注。

主要提升

① 编程与 Agentic 任务：多项基准跃升，最高幅度超 3 倍

Opus 4.7 是本次迭代改进最集中的领域。Cursor 内部基准 CursorBench 显示其通过率从 Opus 4.6 的 58% 跃升至 70%；Rakuten-SWE-Bench 则报告 4.7 解决生产任务的数量是 4.6 的 3 倍。来自 Notion、Devin、Factory 等多家 Agent 平台的早期测试反馈一致指向同一方向：4.7 在长流程任务中更少中途停止、更少工具调用错误、更强的执行连贯性。

② 视觉能力：分辨率超 3 倍提升，打开 computer-use 新场景

Opus 4.7 支持最长边达 2,576 像素（约 3.75 MP）的图像输入，而前代模型约为 800 像素量级。这一提升并非渐进式改进，而是直接让此前受限于图像清晰度的场景（密集截图解析、复杂技术图表读取、化学结构识别等）变得可用。XBOW 的测试数据最为直观：视觉准确率基准从 Opus 4.6 的 54.5% 大幅跃升至 98.5%。

③ 最大输出长度翻倍：64K → 128K tokens

Opus 4.7 单次最大输出长度较 4.6 翻倍，对需要模型一次性生成大量代码、长篇文档或复杂结构化报告的场景有直接意义。配合 Agent 长任务能力的整体提升，单次执行完整度进一步增强。

④ 指令遵从：精确执行带来的"双刃剑"效应

Opus 4.7 的指令遵从能力大幅增强，官方明确提示：为旧版模型编写的提示词可能在 4.7 上产生意外结果——因为 4.6 倾向于对模糊指令进行宽泛解读，而 4.7 会字面执行。这意味着已有工作流的开发者需要重新调校 Prompt。

⑤ 抽象推理：ARC-AGI-2 得分近乎翻倍

ARC-AGI-2 得分从 Opus 4.6 的 37.6% 提升至 68.8%，接近翻倍。这是所有基准中提升幅度最大的单项，也是模型通用推理能力跃升的有力信号。

⑥ 文件系统记忆：跨会话任务连贯性改善

Opus 4.7 更善于利用文件系统存储关键上下文，在多轮、跨会话的长期任务中能自动调取历史记录，减少用户每次重新铺垫背景的负担。

⑦ 新增 xhigh 推理等级

effort 参数新增 xhigh 档位，位于 high 与 max 之间，为开发者提供更精细的推理深度控制。Claude Code 默认推理等级已上调为 xhigh。

主要劣化与注意事项

① Tokenizer 更新导致 Token 消耗增加

Opus 4.7 采用了新版 Tokenizer，相同输入可能映射到约 1.0–1.35 倍的 Token 数量，叠加 xhigh 等级下更多的思考 Token 输出，实际 API 账单可能高于名义定价所呈现的水平。早期用户反馈也印证了这一点：有开发者指出 xhigh 默认配置下的 Token 消耗"相当可观"。

② 部分安全性指标略有下滑

官方安全评估报告显示，4.7 在某些安全维度（如受控物质的详细信息输出倾向）相比 4.6 略有退步，整体对齐水平被评定为"基本良好但尚不理想"。Mythos Preview 仍是 Anthropic 对齐表现最佳的模型。

社区反馈摘要

来自知乎的早期评估认为，4.7 的能力进步"体感上不及从 4.5 到 4.6 那一跳明显"，但考虑到 4.6 基础已经很高，4.7 在编程密集场景的提升依然值得认可。部分开发者注意到 ARC-AGI-2 的大幅跃升，并将其解读为 Anthropic 在通用推理层面补强的信号。X/Threads 社区中有开发者表示"4.7 感觉更智能、更自主、更精准"，但也有声音提示在适应新模型行为前有一定的学习曲线。定价不变但实际 Token 消耗可能增加，是目前对话中出现频率最高的实用层面顾虑。

迁移关键提示

重新评估 Prompt：4.7 对指令的字面执行倾向更强，旧版 Prompt 建议逐一验证；
监控 Token 消耗：新 Tokenizer + xhigh 默认配置，建议在真实流量上测量净成本变化再决定推理等级；
视觉场景可积极升级：图像分辨率的大幅提升让此前勉强可用的场景变为可靠方案；
长输出场景受益明显：最大输出翻倍至 128K，依赖单次大量生成的工作流可重新评估任务拆分策略。

评测项	Opus 4.7	Claude Opus 4.6
ARC-AGI 综合评估	92.00思考水平·高	92.00扩展思考
ARC-AGI-2 综合评估	75.80思考水平·高	66.30扩展思考
GPQA Diamond 综合评估	94.20扩展思考	91.31扩展思考
HLE 综合评估	54.70扩展思考｜工具	53.00扩展思考｜工具
LiveBench 综合评估	76.91深度思考模式	76.33思考水平·高
MMLU 综合评估	91.50常规模式	91.05扩展思考
SWE-bench Verified 编程与软件工程	87.60扩展思考｜工具	80.84扩展思考｜工具
FrontierMath 数学推理	43.80思考水平·极高	40.70思考水平·高
FrontierMath - Tier 4 数学推理	22.90思考水平·极高	22.90思考水平·高
BrowseComp AI Agent - 信息收集	79.30扩展思考｜工具	84.00开启思考｜工具
MCP-Atlas AI Agent - 工具使用	79.10深度思考模式｜工具	76.80深度思考模式｜工具
OSWorld-Verified AI Agent - 工具使用	78.00扩展思考｜工具	72.70扩展思考｜工具
Terminal Bench 2.0 AI Agent - 工具使用	69.40扩展思考｜工具	65.40扩展思考｜工具

评测项

Opus 4.7

Claude Opus 4.6

ARC-AGI

综合评估

92.00思考水平·高

92.00扩展思考

ARC-AGI-2

综合评估

75.80思考水平·高

66.30扩展思考

GPQA Diamond

综合评估

94.20扩展思考

91.31扩展思考

HLE

综合评估

54.70扩展思考｜工具

53.00扩展思考｜工具

LiveBench

综合评估

76.91深度思考模式

76.33思考水平·高

MMLU

综合评估

91.50常规模式

91.05扩展思考

SWE-bench Verified

编程与软件工程

87.60扩展思考｜工具

80.84扩展思考｜工具

FrontierMath

数学推理

43.80思考水平·极高

40.70思考水平·高

FrontierMath - Tier 4

数学推理

22.90思考水平·极高

22.90思考水平·高

BrowseComp

AI Agent - 信息收集

79.30扩展思考｜工具

84.00开启思考｜工具

MCP-Atlas

AI Agent - 工具使用

79.10深度思考模式｜工具

76.80深度思考模式｜工具

OSWorld-Verified

AI Agent - 工具使用

78.00扩展思考｜工具

72.70扩展思考｜工具

Terminal Bench 2.0

AI Agent - 工具使用

69.40扩展思考｜工具

65.40扩展思考｜工具

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格	Opus 4.7Anthropic	Claude Opus 4.6Anthropic
核心规格发布时间	2026-04-16	2026-02-05
上下文	1000K	1000K
最大输出	131072	65536
MoE 架构	不支持	不支持
开源与许可代码开源	未提供	未提供
权重开源	未提供	未提供
商业授权	不开源	不开源
模态支持文本输入/输出	/	/
图片输入/输出	/	/
资料来源论文 / 报告	Introducing Claude Opus 4.7	Introducing Claude Opus 4.6
DataLearner 博客	Anthropic发布Claude Opus 4.7：编程能力大幅跃升，视觉分辨率提升超3倍，首个搭载网络安全防护机制的旗舰模型！	未提供

Opus 4.7与Opus 4.6对比有哪些提升和下降的地方？Opus 4.7与Opus 4.6全面对比分析

主要提升

主要劣化与注意事项

社区反馈摘要

迁移关键提示

能力分布概览

性能评测对比

评测得分表格

API 价格对比

能力与规格明细