CL

Claude Opus 4.5

Anthropic Claude Opus 4.5

发布时间: 2025-11-25660
模型参数
未披露
上下文长度
200K
中文支持
支持
推理能力

模型基本信息

推理过程
支持
上下文长度
200K tokens
最大输出长度
65536 tokens
模型类型
暂无数据
发布时间
2025-11-25
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
0.0 亿 / 不涉及
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$5$25
缓存计费Cache
模态输入 Cache输出 Cache
文本$6.25$0.5

评测得分

综合评估

共 10 项评测
评测名称 / 模式
得分
排名/总数
MMLU Prothinking
90
2 / 109
GPQA Diamondthinking
87
12 / 141
ARC-AGIthinking
80
4 / 36
75.58
6 / 52
LiveBenchmedium
74.87
8 / 52
HLEthinking + 使用工具
43.20
7 / 82
ARC-AGInormal
40
19 / 36
ARC-AGI-2thinking
37.60
4 / 27
HLEthinking
30.80
19 / 82
ARC-AGI-2normal
7.80
13 / 27

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBenchthinking + 使用工具
87
3 / 99
80.90
2 / 73

多模态理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
MMMUthinking
80.70
6 / 17

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Benchthinking
62
3 / 25

Agent能力评测

共 3 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench - Telecomthinking + 使用工具
90.70
9 / 19
τ²-Benchthinking + 使用工具
81.99
6 / 29
Terminal Bench Hardthinking + 使用工具
44
1 / 7

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
FrontierMaththinking
20.70
10 / 53
4.20
11 / 31

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Benchthinking + 使用工具
58
8 / 15

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0thinking + 使用工具
59.30
1 / 9

发布机构

模型解读

Claude Opus 4.5 是 Anthropic 2025 年发布的最新旗舰模型,是目前 Claude 系列中智能水平最高的一档。官方将其定位为当前最强的 Claude,用于复杂软件工程、长程推理、高难度 Agent 任务以及办公自动化等场景。与前代 Opus 4.1、以及同代的 Sonnet 4.5、Haiku 4.5 相比,它在代码能力、长上下文利用、工具调用效率和安全对齐等方面都有明显提升。Anthropic+1


二、关键参数配置

1. 基本属性

  • Claude API 模型 ID: claude-opus-4-5-20251101
  • Claude API Alias: claude-opus-4-5
  • AWS Bedrock ID: anthropic.claude-opus-4-5-20251101-v1:0
  • Google Vertex AI ID: claude-opus-4-5@20251101 Claude 控制台
  • 支持形态: 文本输入 / 文本输出 图片输入(多模态理解) 多语言能力(含中英等) 支持扩展思考(Extended thinking / Effort 参数)Claude 控制台+1

2. 上下文与知识时间线

  • 上下文窗口: 标准上下文:200K tokens
  • 最大输出长度: 单次最多 64K tokens 输出
  • 可靠知识截止时间(reliable knowledge cutoff): 2025 年 3 月
  • 训练数据截止时间(training data cutoff): 2025 年 8 月 Claude 控制台

这意味着 Opus 4.5 对 2025 年上半年之前的技术、产品与行业信息有较完整覆盖,对之后的事件了解有限。

3. 定价(Claude 官方标准价)

单位:百万 tokens(MTok)
  • 输入: 5 美元 / 百万输入 tokens
  • 输出: 25 美元 / 百万输出 tokens Claude 控制台+1

相较于上一代 Opus 4 / 4.1 的 15 / 75 美元,Opus 4.5 的价格整体下调约 66%,官方明确说明这是一次“旗舰模型价格下探”,让 Opus 级别能力更容易被日常使用。WinBuzzer+1


三、能力特征概览

1. 推理与复杂任务

  • 多步骤推理、条件分支、长任务规划能力明显加强,在长对话和大规模信息整合场景下逻辑更稳定。
  • 能在 200K 上下文内保持较好的一致性,适合长文档分析、复杂问答和多轮规划。Anthropic

2. 代码与软件工程

  • 官方定位为“目前编码、Agent、电脑使用场景表现最强的 Claude 模型”。Anthropic+1
  • 擅长理解大型代码库、修复复杂 bug、生成工程级代码与自动化脚本。
  • 针对 IDE、CLI、Copilot 等场景有专门优化,能够支持长时间的自动化编码会话。Anthropic+1

3. 长文档与办公能力

  • 对长报告、论文、技术文档、财务模型等结构化内容有较强理解与总结能力。
  • 在官方与合作伙伴测试中,表格与 Excel 自动化任务的准确率相对前代提升约 20%,效率提升约 15%。Anthropic+1

4. 多模态理解

  • 支持图片输入,能对界面截图、图表、文档截屏等进行解读与分析,并结合文本进行推理与生成。Claude 控制台+1

5. 输出效率与 Effort 控制

  • 引入 effort 参数(低 / 中 / 高)控制“思考深度”: 中等 effort 模式下,在 SWE-bench Verified 上可以在匹配 Sonnet 4.5 最佳成绩的前提下,输出 token 数减少约 76%。 高 effort 模式下,相比 Sonnet 4.5 最佳成绩再提升约 4.3 个百分点,同时输出 token 减少约 48%。Anthropic

对用户来说,这意味着在很多任务上可以同时获得:更高质量 + 更少 token + 可控推理深度

6. 安全与对齐

  • Anthropic 在系统卡与发布文章中,将 Opus 4.5 描述为其目前对齐程度最高、抗 Prompt Injection 能力最强的前沿模型。Anthropic+1

四、评测与基准表现

这一部分可以直接作为你在 DataLearnerAI 上的“评测摘要区块”。

1. 核心编码基准(SWE-bench 系列)

  • SWE-bench Verified(真实软件工程任务): 多家媒体与评测文章报道,Claude Opus 4.5 在 SWE-bench Verified 上取得约 80.9% 的成绩,当前位列公开结果前列。WinBuzzer+1 官方博客强调:在中等 effort 模式下,Opus 4.5 能以 76% 更少的输出 token 达到 Sonnet 4.5 的最佳成绩;在高 effort 模式下,则在该基准上比 Sonnet 4.5 提升约 4.3 个百分点。Anthropic 作为对比,Sonnet 4.5 官方给出的 SWE-bench Verified 成绩为: 200K 上下文、无额外 test-time compute:77.2% 高计算设置下:82.0%。维基百科
你在 DataLearnerAI 上可以简要写作: “SWE-bench Verified:≈80.9%,在公开结果中处于领先水平,相比 Sonnet 4.5 进一步提升。”

2. 多语言与多语言代码基准

Anthropic 在官方文章中展示了多个编程与多语言相关基准的对比图:Anthropic

  • SWE-bench Multilingual: Opus 4.5 在 8 种编程语言中有 7 种取得最佳成绩,整体领先其他前沿模型。
  • Aider Polyglot: 相比 Sonnet 4.5 提升约 10.6 个百分点,在多语言代码编辑任务中表现更好。

可以在条目中概括为:“多语言代码编辑任务显著优于 Sonnet 4.5,在 Aider Polyglot 基准上有 10%+ 的绝对提升。”

3. Agent / 工具使用与长程任务基准

官方博客中还给出了多项“Agent / 电脑使用”相关基准:Anthropic

  • BrowseComp-Plus(强化检索 + 浏览任务基准): Opus 4.5 在该基准上较前代有“显著提升”,尤其是在带工具和带 Web Fetch 的场景下。
  • Vending-Bench(长程收益型任务): 在模拟长程决策任务中,Opus 4.5 相比 Sonnet 4.5 的“收益”指标提升约 29%。
  • Terminal Bench(命令行多步骤任务): Warp 团队内部评测显示,Opus 4.5 在 Terminal Bench 上相对 Sonnet 4.5 提升约 15%,长时间自主编码任务中“死路”更少。

你在条目里可以总结为一段话:

“在多项 Agent 与电脑使用相关基准(BrowseComp-Plus、Vending-Bench、Terminal Bench 等)中,Claude Opus 4.5 相比 Sonnet 4.5 均有两位数幅度的提升,尤其在长程任务稳定性和收益类指标上优势明显。”

4. 其它内部评估结果

Anthropic 还披露了一些内部评估:Anthropic

  • 在公司内部极难的工程 take-home 测试中,Opus 4.5 在两小时限定时间内取得高于历史所有人类候选者的得分。
  • 在 τ²-bench 等真实多轮任务评测中,Opus 4.5 展现出“策略更巧妙、能找到规避约束的合法路径”,体现出更强的问题重构与规划能力。

五、在 Claude 4.5 家族中的位置

结合官方模型对比:Claude 控制台+1

  • Haiku 4.5: 主打“最快 + 最便宜”,适合高并发、轻量问答与工具子 Agent。
  • Sonnet 4.5: 综合“智能 / 速度 / 成本”最均衡,是推荐默认模型,在多数编码与 Agent 场景中已经足够强。
  • Opus 4.5: 智能水平最高、推理最深、长上下文利用最稳; 代码与复杂 Agent 任务表现最强; 成本和延迟均高于 Sonnet / Haiku,但价格较前代 Opus 大幅下降。






--------------------以下是旧消息,2025年11月25日,Anthropic官方已经发布了Claude Opus 4.5模型了---------------

状态说明:截至当前(2025-11-20),Anthropic 尚未正式发布「Claude Opus 4.5」,相关信息来自开发者社区与社交媒体上的界面/接口泄露与传闻。以下内容仅为对公开可见线索的客观汇总。

模型概览与定位(基于公开线索)

多名开发者在 X 与开发者社区称,在 Claude Code CLI 的请求或 Pull Request 讨论中短暂出现了「Opus 4.5」的模型标识;另有多条爆料称该模型的内部代号为「Neptune V6」,并已进入外部红队(red-teaming)阶段,指向其为 Claude 4.5 系列中的高端/前沿版本(对标已发布的 Sonnet 4.5 / Haiku 4.5)。

可查线索示例:X 上关于「Opus 4.5」在 CLI 请求中被发现的贴文;媒体与社区贴文对「Neptune V6」与即将发布的说法进行了二次报道与讨论。

架构与技术规格

官方尚未披露任何参数规模、架构形态(如是否为 MoE)、训练数据或上下文窗口等技术指标。基于谨慎原则,本条暂不作推测。

能力与模态

官方未披露。结合 Claude 4.1 Opus 与 Sonnet 4.5 的既有定位,外界普遍推测 Opus 4.5 仍将面向复杂推理、长流程编排与高强度编码/工具使用等场景,但缺乏可验证数据,暂不下定论。

性能与评测

暂无官方基准数据或系统卡可引用,故不填。

应用与限制

因未发布且无正式文档,不提供应用建议或限制说明。

访问方式与许可

暂无公开的 API 型号名、定价与许可信息。待官方公告为准。

信息来源(示例)

  • X 上关于「Claude Opus 4.5」在 Claude Code CLI/请求中被发现的贴文与转述。
  • 媒体与社区贴文称新模型代号为 Neptune V6,处于红队阶段并“即将发布”。

注:以上为对公开可见线索的客观转述与归纳,非官方立场,后续以 Anthropic 正式发布为准。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码