DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

Anthropic发布Claude Opus 4.7:编程能力大幅跃升,视觉分辨率提升超3倍,首个搭载网络安全防护机制的旗舰模型!

2026/04/16 23:13:27
18 阅读
AnthropicClaudeOpus4.7

就在今天,Anthropic正式发布Claude Opus 4.7,作为Opus 4.6的直接升级版本,本次更新重点集中在三个方向:软件工程能力的大幅提升、视觉理解的显著增强,以及一套全新的网络安全防护机制。值得说明的是,Opus 4.7并非目前Claude系列中能力最强的模型——那个位置属于上周刚刚发布的Claude Mythos Preview——但它是第一个面向大规模开放部署、同时完成完整安全体系验证的新一代旗舰。定价与Opus 4.6保持一致:API输入$5/百万token,输出$25/百万token。

  • Claude Opus系列背景与演进
  • Claude Opus 4.7 核心能力:软件工程大幅跃升
  • 视觉能力重大升级:支持高达3.75百万像素
  • 网络安全能力与首个差异化防护机制
  • 配套新功能:xhigh推理等级、任务预算、/ultrareview
  • DataLearner基准评测数据汇总
  • 与GPT-5.4、Gemini 3.1 Pro的横向对比
  • 迁移注意事项:tokenizer变更与token用量变化
  • 使用方式与定价

Claude Opus系列背景与演进

Claude Opus是Anthropic旗舰模型系列中定位最高的产品线。此前的Opus 4.6于2026年2月发布,在复杂推理、代码生成、长上下文任务等方面表现突出。

上周,Anthropic发布了Claude Mythos Preview,将能力天花板进一步拉高,但出于安全考虑维持受限发布状态。Opus 4.7的推出,可以理解为Anthropic在"最强能力"和"广泛部署安全性"之间做出的一次工程平衡——比Mythos Preview能力稍弱,但已经过系统性安全验证,可以正式面向所有用户和企业开放。

从DataLearner收录的历代版本数据来看,Opus系列的演进相当稳健:

DataLearner系列版本评测总览表 —— 含Opus 4.1/4.5/4.6/4.7在GPQA Diamond、SWE-bench Verified、Terminal Bench 2.0的分数趋势
DataLearner系列版本评测总览表 —— 含Opus 4.1/4.5/4.6/4.7在GPQA Diamond、SWE-bench Verified、Terminal Bench 2.0的分数趋势
数据来源:https://www.datalearner.com/ai-models/pretrained-models/claude-opus-4-7/analysis

以GPQA Diamond为例,从Opus 4.1的81.00分,到4.5的87.00分,到4.6的91.31分,再到4.7的94.20分,每一代都有实质性提升。SWE-bench Verified的跨越更明显:Opus 4.6和4.5的成绩基本持平(80.84 vs 80.90),而4.7直接跳升至87.60分,这个突破是本次发布最值得关注的信号之一。

Claude Opus 4.7 核心能力:软件工程大幅跃升

这次更新最核心的亮点,是在软件工程任务上的显著提升,尤其是在最复杂的那类任务上。

从早期测试伙伴的反馈来看,提升幅度相当明显:

  • Cursor CursorBench通过率达到70%,Opus 4.6为58%;
  • Rakuten SWE-Bench内部评测中,解决生产任务数量是Opus 4.6的3倍;
  • GitHub Copilot 93任务编程基准中,解决率比Opus 4.6提升13个百分点,其中包括4个此前两个模型都无法解决的任务;
  • Notion 多步骤工作流任务准确率比Opus 4.6提升14%,工具调用错误率降至三分之一。

Opus 4.7的一个明显新行为:它会在开始工作前自行进行形式化验证,并在输出结果前主动检查自身逻辑的正确性,而不是等用户发现问题后再修正。简单说,比Opus 4.6更懂得"先想清楚再动手"。

在遵从指令方面同样有显著提升。这里有一个实际影响需要注意:之前针对Opus 4.6调校的提示词,现在可能产生不同结果——旧模型会对指令做宽松解读,Opus 4.7则更字面化地执行。建议开发者在切换模型后重新测试和调整提示词。

视觉能力重大升级:支持高达3.75百万像素

Opus 4.7在视觉理解方面做了一次重要的底层升级:支持的图像分辨率从此前版本的上限,提升至长边2,576像素(约3.75百万像素),是此前Claude模型的超过3倍。

几个典型的实际意义:

  • 计算机使用(Computer Use)场景:可以清晰读取高密度截图中的UI元素。XBOW的测试中,Opus 4.7在视觉精度基准上得分达到98.5%,而Opus 4.6仅为54.5%,这个差距直接解锁了一整类此前无法使用的工作场景;
  • 科学与工程图表:Solve Intelligence反映,已经可以准确读取化学结构式和复杂技术图表;
  • OSWorld-Verified(计算机界面操控基准):Opus 4.7得分78.00,比Opus 4.6的72.70提升超过5个点,在DataLearner收录的12个模型中排名第二。

这是模型级别的变化,不需要调整API参数,发送给模型的图像会自动以更高分辨率处理。需要注意的是,高分辨率图像会消耗更多token,如不需要额外细节,可在发送前对图像降采样。

网络安全能力与首个差异化防护机制

这部分是Opus 4.7发布中一个特别值得关注的背景。

上周,Anthropic在发布Claude Mythos Preview的同时,也发布了Project Glasswing,专门评估AI模型在网络安全领域的风险与价值,并宣布在验证新防护机制之前,Mythos Preview将维持受限发布。Opus 4.7是第一个搭载这套网络安全防护机制的正式发布模型。

具体来说,Anthropic在Opus 4.7的训练过程中专门尝试差异化降低网络安全类能力,同时部署了一套会自动检测并拦截高风险网络安全请求的防护机制。策略逻辑是:先在能力相对较低的模型上验证这套体系,再逐步将经验应用到Mythos级别模型的广泛发布上。

对于有合法需求的安全专业人员(漏洞研究、渗透测试、红队评估),Anthropic开放了 Cyber Verification Program 申请通道。

配套新功能:xhigh推理等级、任务预算、/ultrareview

除了模型本身,这次发布还带来了几个配套功能更新:

新增 xhigh 推理等级:在原有的 high 和 max 之间,新增了 xhigh 等级,让用户在推理深度和响应延迟之间有更细粒度的控制。Claude Code 中,所有计划的默认推理等级已经从 high 提升至 xhigh。测试Opus 4.7做编程或智能体任务时,Anthropic建议从 high 或 xhigh 开始。

任务预算(Task Budgets)公测:Claude Platform API新增任务预算功能,开发者可以为Claude指定token消耗的分配策略,让模型在长时间运行任务中能合理分配资源、优先处理重要工作。

Claude Code新增 /ultrareview 命令:触发一次专项代码审查,逐行阅读代码变更,标记出资深审查者会发现的缺陷和设计问题。Pro和Max用户可以免费获得3次试用。另外,Auto mode(自动权限决策模式)现在也扩展到了Max用户。

DataLearner基准评测数据汇总

DataLearner已收录Opus 4.7的代表性评测成绩如下:

DataLearner评测结果页 —— 含综合评估、编程与软件工程、AI Agent信息收集、AI Agent工具使用各板块得分及排名
DataLearner评测结果页 —— 含综合评估、编程与软件工程、AI Agent信息收集、AI Agent工具使用各板块得分及排名
数据来源:https://www.datalearner.com/ai-models/pretrained-models/claude-opus-4-7
评测项得分全球排名
GPQA Diamond(综合推理)94.204 / 167
HLE(使用工具)54.705 / 131
SWE-bench Verified(软件工程)87.602 / 97
SWE-Bench Pro - Public64.302 / 26
BrowseComp(信息收集Agent)79.306 / 36
OSWorld-Verified(计算机操控)78.002 / 12
Terminal Bench 2.0(终端操作)69.404 / 33

编程和计算机操控方向的排名非常靠前,这与Anthropic这次重点宣传软件工程能力的方向一致。

与GPT-5.4、Gemini 3.1 Pro的横向对比

DataLearner竞品对比表 —— Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro Preview,含8项评测得分和价格对比
DataLearner竞品对比表 —— Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro Preview,含8项评测得分和价格对比
数据来源:https://www.datalearner.com/ai-models/pretrained-models/claude-opus-4-7/analysis

从DataLearner收录的竞品对比数据来看,Opus 4.7的强弱分布比较清晰:

编程方向优势明显:SWE-bench Verified Opus 4.7得87.60分,Gemini 3.1 Pro为80.60分,GPT-5.4暂无可比数据;SWE-Bench Pro中Opus 4.7以64.30分领先GPT-5.4的57.70分和Gemini的54.20分,差距相当显著。这是Opus 4.7最值得称道的方向。

综合推理基本持平:GPQA Diamond三者基本咬在一起(Opus 4.7:94.20,GPT-5.4:92.80,Gemini 3.1 Pro:94.30),HLE方面Opus 4.7以54.70分小幅领先(GPT-5.4:52.10,Gemini:51.40)。

Agent信息收集方向落后:BrowseComp上Opus 4.7得79.30分,而Gemini 3.1 Pro达85.90分、GPT-5.4为82.70分,这是相对薄弱的一块。Terminal Bench 2.0上也是GPT-5.4(75.10)领先Opus 4.7(69.40)。

价格方面需要正视:Opus 4.7的标准API定价($5输入/$25输出)明显高于GPT-5.4($2.5/$15,272K以内)和Gemini 3.1 Pro Preview($2/$12,200K以内)。在编程能力以外的场景,选择哪个模型需要结合具体任务和成本综合判断。

迁移注意事项:tokenizer变更与token用量变化

从Opus 4.6切换到Opus 4.7有两个变化值得提前规划:

Tokenizer更新:新版tokenizer改善了文本处理方式,但相同输入内容可能映射到更多token,测试数据显示大约是1.0–1.35倍,具体取决于内容类型。

更多推理输出:Opus 4.7在较高推理等级下,尤其是智能体任务的后期对话轮次中,会产生更多思考token。

好消息是,根据Anthropic内部编程评测,综合考虑任务完成质量和token消耗,整体效率是改善的——更高的完成率摊薄了token成本。但仍建议在真实业务流量上先做测试再切换。Anthropic提供了完整的 迁移指南。

使用方式与定价

Claude Opus 4.7今日起全面开放,支持以下渠道:

  • Claude所有产品(claude.ai网页版、移动端、桌面端)
  • Claude API,模型调用字符串:claude-opus-4-7
  • Amazon Bedrock
  • Google Cloud Vertex AI
  • Microsoft Foundry

定价与Opus 4.6一致:输入 $5/百万token,输出 $25/百万token。

关于Claude Opus 4.7的完整评测数据和竞品对比,可参考DataLearner模型评测详情页:https://www.datalearner.com/ai-models/pretrained-models/claude-opus-4-7/analysis

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • Claude Mythos Preview System Card深度解读:欺骗行为、答案抖动、模型福利等十大关键发现
  • Claude Mythos 是什么?Anthropic最强模型评测、安全能力与Project Glasswing详解
  • 重磅!Anthropic官方数据泄露,正在测试新的大模型Claude Mythos,规模超越Opus,能力实现“阶梯式”飞跃!
  • Anthropic 发布 Cowork:从 Claude Code 的发展历史看 Cowork 的能力与定位,它可能成为普通人的下一代桌面 AI 助手吗?
  • Anthropic发布Claude Haiku 4.5:一个不可忽视的低成本模型,1/3的价格,1.5倍的速度,但是有Claude Sonnet 4的水平!
  • 大模型可以运营自动售货机吗?Anthropic的Project Vend实验:Claude能成功经营一家小店吗?答案是亏损严重还会免费赠送商品!
  • Anthropic发布Claude4,全球最强编程大模型,大幅提升AI Agent系统所需的各项能力,最长可以7小时连续工作,持续工作、工具使用、记忆使用方面大幅提升
  • 大模型的多语言能力来自哪里?大模型是否有自己的内部语言?在英文数据集上学习到的知识可以用中文表达出来吗?

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署