DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Table of Contents
目录
HomeModel CompareOpus 4.7与Opus 4.6对比有哪些提升和下降的地方?Opus 4.7与Opus 4.6全面对比分析

Opus 4.7与Opus 4.6对比有哪些提升和下降的地方?Opus 4.7与Opus 4.6全面对比分析

See key specs and per-benchmark scores for each model/mode. Scroll horizontally for all columns. 当前对比 2 个模型的评测数据与核心参数。

Claude Opus 4.7Claude Opus 4.627 次浏览
规格对比

Claude Opus 4.7 于 2026 年 4 月 16 日发布,距 Opus 4.6 约两个月,定价维持不变(API 输入 $5/M tokens,输出 $25/M tokens)。这是一次以编程与 Agent 能力为核心驱动力的迭代,视觉能力同步完成了代际级跃升,最大输出长度也实现翻倍。但模型在 Token 消耗效率方面存在可感知的变化,迁移前需要关注。


主要提升

① 编程与 Agentic 任务:多项基准跃升,最高幅度超 3 倍

Opus 4.7 是本次迭代改进最集中的领域。Cursor 内部基准 CursorBench 显示其通过率从 Opus 4.6 的 58% 跃升至 70%;Rakuten-SWE-Bench 则报告 4.7 解决生产任务的数量是 4.6 的 3 倍。来自 Notion、Devin、Factory 等多家 Agent 平台的早期测试反馈一致指向同一方向:4.7 在长流程任务中更少中途停止、更少工具调用错误、更强的执行连贯性。

② 视觉能力:分辨率超 3 倍提升,打开 computer-use 新场景

Opus 4.7 支持最长边达 2,576 像素(约 3.75 MP)的图像输入,而前代模型约为 800 像素量级。这一提升并非渐进式改进,而是直接让此前受限于图像清晰度的场景(密集截图解析、复杂技术图表读取、化学结构识别等)变得可用。XBOW 的测试数据最为直观:视觉准确率基准从 Opus 4.6 的 54.5% 大幅跃升至 98.5%。

③ 最大输出长度翻倍:64K → 128K tokens

Opus 4.7 单次最大输出长度较 4.6 翻倍,对需要模型一次性生成大量代码、长篇文档或复杂结构化报告的场景有直接意义。配合 Agent 长任务能力的整体提升,单次执行完整度进一步增强。

④ 指令遵从:精确执行带来的"双刃剑"效应

Opus 4.7 的指令遵从能力大幅增强,官方明确提示:为旧版模型编写的提示词可能在 4.7 上产生意外结果——因为 4.6 倾向于对模糊指令进行宽泛解读,而 4.7 会字面执行。这意味着已有工作流的开发者需要重新调校 Prompt。

⑤ 抽象推理:ARC-AGI-2 得分近乎翻倍

ARC-AGI-2 得分从 Opus 4.6 的 37.6% 提升至 68.8%,接近翻倍。这是所有基准中提升幅度最大的单项,也是模型通用推理能力跃升的有力信号。

⑥ 文件系统记忆:跨会话任务连贯性改善

Opus 4.7 更善于利用文件系统存储关键上下文,在多轮、跨会话的长期任务中能自动调取历史记录,减少用户每次重新铺垫背景的负担。

⑦ 新增 xhigh 推理等级

effort 参数新增 xhigh 档位,位于 high 与 max 之间,为开发者提供更精细的推理深度控制。Claude Code 默认推理等级已上调为 xhigh。


主要劣化与注意事项

① Tokenizer 更新导致 Token 消耗增加

Opus 4.7 采用了新版 Tokenizer,相同输入可能映射到约 1.0–1.35 倍的 Token 数量,叠加 xhigh 等级下更多的思考 Token 输出,实际 API 账单可能高于名义定价所呈现的水平。早期用户反馈也印证了这一点:有开发者指出 xhigh 默认配置下的 Token 消耗"相当可观"。

② 部分安全性指标略有下滑

官方安全评估报告显示,4.7 在某些安全维度(如受控物质的详细信息输出倾向)相比 4.6 略有退步,整体对齐水平被评定为"基本良好但尚不理想"。Mythos Preview 仍是 Anthropic 对齐表现最佳的模型。


社区反馈摘要

来自知乎的早期评估认为,4.7 的能力进步"体感上不及从 4.5 到 4.6 那一跳明显",但考虑到 4.6 基础已经很高,4.7 在编程密集场景的提升依然值得认可。部分开发者注意到 ARC-AGI-2 的大幅跃升,并将其解读为 Anthropic 在通用推理层面补强的信号。X/Threads 社区中有开发者表示"4.7 感觉更智能、更自主、更精准",但也有声音提示在适应新模型行为前有一定的学习曲线。定价不变但实际 Token 消耗可能增加,是目前对话中出现频率最高的实用层面顾虑。


迁移关键提示

  • 重新评估 Prompt:4.7 对指令的字面执行倾向更强,旧版 Prompt 建议逐一验证;
  • 监控 Token 消耗:新 Tokenizer + xhigh 默认配置,建议在真实流量上测量净成本变化再决定推理等级;
  • 视觉场景可积极升级:图像分辨率的大幅提升让此前勉强可用的场景变为可靠方案;
  • 长输出场景受益明显:最大输出翻倍至 128K,依赖单次大量生成的工作流可重新评估任务拆分策略。
Anthropic

Claude Opus 4.7

CL

Claude Opus 4.7

Release2026-04-16
Context length1000K
Parameters0
推理大模型
Model profilePlayground
Anthropic

Claude Opus 4.6

CL

Anthropic Claude Opus 4.6

Release2026-02-05
Context length1000K
Parameters0
推理大模型
Model profilePlayground

Performance benchmarks

Compare benchmark results across thinking modes and tool usage.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Thinking
Tool usage
Internet

Best Overall

—

Best Single

—

Thinking Mode (Default)

Claude Opus 4.7 · 1 Modality support

Benchmark scores

Higher is usually better; “—” means no score.

Filter: Default Mode0 All Modes · 0 Benchmark
No data

Benchmark score table

Complete scores for each model/mode across selected benchmarks.

Feature compare

Detailed feature breakdown

Licensing, MoE architecture, and multi-modality support.

Features & specs
CL
Claude Opus 4.7Anthropic
CL
Claude Opus 4.6Anthropic

Model snapshots

Organization
AnthropicAnthropic
模型全名
Claude Opus 4.7Anthropic Claude Opus 4.6
模型简介
Not providedNot provided
模型类型
推理大模型推理大模型
模型代号
claude-opus-4-7claude-opus-4-6
Release
2026-04-162026-02-05
MoE
NoNo

规格与性能

Context length
1000K1000K
Parameters
——
激活参数量
Not providedNot provided
模型规模
未知未知
模型大小
Not provided0B
推理速度
推理等级
最大输出
13107265536
Supported modes
No mode dataNo mode data

开源与许可

Code Open Source
Not providedNot provided
Weights Open Source
Not providedNot provided
Commercial use
不开源不开源

Modality support

Text Input/Output
/
/
Image Input/Output
Not providedNot provided
Audio Input/Output
Not providedNot provided
Video Input/Output
Not providedNot provided
Embedding Input/Output
Not providedNot provided

API 接口详情

Text 价格
Input: $5 / 1M tokensOutput: $25 / 1M tokensCache: $6.25 / 1M tokens
Input: $5 / 1M tokensOutput: $25 / 1M tokensCache: $0.5 / 1M tokensInput (Extended): $10 / 1M tokensOutput (Extended): $37.5 / 1M tokensThreshold: 200K
Image API pricing
Not providedNot provided
Audio API pricing
Not providedNot provided
Video API pricing
Not providedNot provided
Embedding API pricing
Not providedNot provided

Resources

GitHub
Not providedNot provided
Hugging Face
Not providedNot provided
Official Page
Not providedNot provided
Guides
Not providedNot provided
Papers
Introducing Claude Opus 4.7Introducing Claude Opus 4.6
DataLearnerAI
Anthropic发布Claude Opus 4.7:编程能力大幅跃升,视觉分辨率提升超3倍,首个搭载网络安全防护机制的旗舰模型!Not provided

API pricing

API price comparison

Side-by-side input/output token pricing

Higher is usually better; “—” means no score.