DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogClaude Opus 4.5
CL

Claude Opus 4.5

Anthropic Claude Opus 4.5

Release date: 2025-11-25更新于: 2025-11-25 09:25:471,227
Live demoGitHubHugging FaceCompare
Parameters
Not disclosed
Context length
200K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Claude Opus 4.5

Model basics

Reasoning traces
Supported
Context length
200K tokens
Max output length
65536 tokens
Model type
推理大模型
Release date
2025-11-25
Model file size
No data
MoE architecture
No
Total params / Active params
0.0B / N/A
Knowledge cutoff
No data
Inference modes
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
Claude Opus 4.5

Open source & experience

Code license
不开源
Weights license
不开源- 不开源
GitHub repo
GitHub link unavailable
Hugging Face
Hugging Face link unavailable
Live demo
https://claude.ai/
Claude Opus 4.5

Official resources

Paper
Introducing Claude Opus 4.5
DataLearnerAI blog
No blog post yet
Claude Opus 4.5

API details

API speed
3/5
💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.
Standard pricingStandard
ModalityInputOutput
Text$5$25
Cached pricingCache
ModalityInput cacheOutput cache
Text$6.25$0.5
Claude Opus 4.5

Benchmark Results

Thinking
Tool usage

综合评估

10 evaluations
Benchmark / mode
Score
Rank/total
MMLU ProThinking
90
2 / 112
GPQA DiamondThinking
87
19 / 153
ARC-AGIThinking
80
8 / 42
LiveBenchThinking·High
75.58
6 / 52
LiveBenchThinking·Medium
74.87
8 / 52
HLEThinking + With tools
43.20
17 / 105
ARC-AGINormal
40
25 / 42
ARC-AGI-2Thinking
37.60
11 / 34
HLEThinking
30.80
33 / 105
ARC-AGI-2Normal
7.80
20 / 34

编程与软件工程

2 evaluations
Benchmark / mode
Score
Rank/total
LiveCodeBenchThinking + With tools
87
3 / 103
SWE-bench VerifiedThinking
80.90
3 / 87

多模态理解

1 evaluations
Benchmark / mode
Score
Rank/total
MMMUThinking
80.70
6 / 17

常识推理

1 evaluations
Benchmark / mode
Score
Rank/total
Simple BenchThinking
62
3 / 27

Agent能力评测

3 evaluations
Benchmark / mode
Score
Rank/total
τ²-Bench - TelecomThinking + With tools
90.70
16 / 29
τ²-BenchThinking + With tools
81.99
10 / 34
Terminal Bench HardThinking + With tools
44
3 / 14

数学推理

3 evaluations
Benchmark / mode
Score
Rank/total
AIME 2026Thinking
93.30
1 / 7
FrontierMathThinking
20.70
9 / 52
FrontierMath - Tier 4Thinking
4.20
12 / 32

指令跟随

1 evaluations
Benchmark / mode
Score
Rank/total
IF BenchThinking + With tools
58
14 / 25

AI Agent - 工具使用

1 evaluations
Benchmark / mode
Score
Rank/total
Terminal Bench 2.0Thinking + With tools
59.30
5 / 20
查看评测深度分析与其他模型对比
Claude Opus 4.5

Publisher

Anthropic
Anthropic
View publisher details
Anthropic Claude Opus 4.5

Model Overview

Claude Opus 4.5 是 Anthropic 2025 年发布的最新旗舰模型,是目前 Claude 系列中智能水平最高的一档。官方将其定位为当前最强的 Claude,用于复杂软件工程、长程推理、高难度 Agent 任务以及办公自动化等场景。与前代 Opus 4.1、以及同代的 Sonnet 4.5、Haiku 4.5 相比,它在代码能力、长上下文利用、工具调用效率和安全对齐等方面都有明显提升。Anthropic+1


二、关键参数配置

1. 基本属性

  • Claude API 模型 ID: claude-opus-4-5-20251101
  • Claude API Alias: claude-opus-4-5
  • AWS Bedrock ID: anthropic.claude-opus-4-5-20251101-v1:0
  • Google Vertex AI ID: claude-opus-4-5@20251101 Claude 控制台
  • 支持形态: 文本输入 / 文本输出 图片输入(多模态理解) 多语言能力(含中英等) 支持扩展思考(Extended thinking / Effort 参数)Claude 控制台+1

2. 上下文与知识时间线

  • 上下文窗口: 标准上下文:200K tokens
  • 最大输出长度: 单次最多 64K tokens 输出
  • 可靠知识截止时间(reliable knowledge cutoff): 2025 年 3 月
  • 训练数据截止时间(training data cutoff): 2025 年 8 月 Claude 控制台

这意味着 Opus 4.5 对 2025 年上半年之前的技术、产品与行业信息有较完整覆盖,对之后的事件了解有限。

3. 定价(Claude 官方标准价)

单位:百万 tokens(MTok)
  • 输入: 5 美元 / 百万输入 tokens
  • 输出: 25 美元 / 百万输出 tokens Claude 控制台+1

相较于上一代 Opus 4 / 4.1 的 15 / 75 美元,Opus 4.5 的价格整体下调约 66%,官方明确说明这是一次“旗舰模型价格下探”,让 Opus 级别能力更容易被日常使用。WinBuzzer+1


三、能力特征概览

1. 推理与复杂任务

  • 多步骤推理、条件分支、长任务规划能力明显加强,在长对话和大规模信息整合场景下逻辑更稳定。
  • 能在 200K 上下文内保持较好的一致性,适合长文档分析、复杂问答和多轮规划。Anthropic

2. 代码与软件工程

  • 官方定位为“目前编码、Agent、电脑使用场景表现最强的 Claude 模型”。Anthropic+1
  • 擅长理解大型代码库、修复复杂 bug、生成工程级代码与自动化脚本。
  • 针对 IDE、CLI、Copilot 等场景有专门优化,能够支持长时间的自动化编码会话。Anthropic+1

3. 长文档与办公能力

  • 对长报告、论文、技术文档、财务模型等结构化内容有较强理解与总结能力。
  • 在官方与合作伙伴测试中,表格与 Excel 自动化任务的准确率相对前代提升约 20%,效率提升约 15%。Anthropic+1

4. 多模态理解

  • 支持图片输入,能对界面截图、图表、文档截屏等进行解读与分析,并结合文本进行推理与生成。Claude 控制台+1

5. 输出效率与 Effort 控制

  • 引入 effort 参数(低 / 中 / 高)控制“思考深度”: 中等 effort 模式下,在 SWE-bench Verified 上可以在匹配 Sonnet 4.5 最佳成绩的前提下,输出 token 数减少约 76%。 高 effort 模式下,相比 Sonnet 4.5 最佳成绩再提升约 4.3 个百分点,同时输出 token 减少约 48%。Anthropic

对用户来说,这意味着在很多任务上可以同时获得:更高质量 + 更少 token + 可控推理深度。

6. 安全与对齐

  • Anthropic 在系统卡与发布文章中,将 Opus 4.5 描述为其目前对齐程度最高、抗 Prompt Injection 能力最强的前沿模型。Anthropic+1

四、评测与基准表现

这一部分可以直接作为你在 DataLearnerAI 上的“评测摘要区块”。

1. 核心编码基准(SWE-bench 系列)

  • SWE-bench Verified(真实软件工程任务): 多家媒体与评测文章报道,Claude Opus 4.5 在 SWE-bench Verified 上取得约 80.9% 的成绩,当前位列公开结果前列。WinBuzzer+1 官方博客强调:在中等 effort 模式下,Opus 4.5 能以 76% 更少的输出 token 达到 Sonnet 4.5 的最佳成绩;在高 effort 模式下,则在该基准上比 Sonnet 4.5 提升约 4.3 个百分点。Anthropic 作为对比,Sonnet 4.5 官方给出的 SWE-bench Verified 成绩为: 200K 上下文、无额外 test-time compute:77.2% 高计算设置下:82.0%。维基百科
你在 DataLearnerAI 上可以简要写作: “SWE-bench Verified:≈80.9%,在公开结果中处于领先水平,相比 Sonnet 4.5 进一步提升。”

2. 多语言与多语言代码基准

Anthropic 在官方文章中展示了多个编程与多语言相关基准的对比图:Anthropic

  • SWE-bench Multilingual: Opus 4.5 在 8 种编程语言中有 7 种取得最佳成绩,整体领先其他前沿模型。
  • Aider Polyglot: 相比 Sonnet 4.5 提升约 10.6 个百分点,在多语言代码编辑任务中表现更好。

可以在条目中概括为:“多语言代码编辑任务显著优于 Sonnet 4.5,在 Aider Polyglot 基准上有 10%+ 的绝对提升。”

3. Agent / 工具使用与长程任务基准

官方博客中还给出了多项“Agent / 电脑使用”相关基准:Anthropic

  • BrowseComp-Plus(强化检索 + 浏览任务基准): Opus 4.5 在该基准上较前代有“显著提升”,尤其是在带工具和带 Web Fetch 的场景下。
  • Vending-Bench(长程收益型任务): 在模拟长程决策任务中,Opus 4.5 相比 Sonnet 4.5 的“收益”指标提升约 29%。
  • Terminal Bench(命令行多步骤任务): Warp 团队内部评测显示,Opus 4.5 在 Terminal Bench 上相对 Sonnet 4.5 提升约 15%,长时间自主编码任务中“死路”更少。

你在条目里可以总结为一段话:

“在多项 Agent 与电脑使用相关基准(BrowseComp-Plus、Vending-Bench、Terminal Bench 等)中,Claude Opus 4.5 相比 Sonnet 4.5 均有两位数幅度的提升,尤其在长程任务稳定性和收益类指标上优势明显。”

4. 其它内部评估结果

Anthropic 还披露了一些内部评估:Anthropic

  • 在公司内部极难的工程 take-home 测试中,Opus 4.5 在两小时限定时间内取得高于历史所有人类候选者的得分。
  • 在 τ²-bench 等真实多轮任务评测中,Opus 4.5 展现出“策略更巧妙、能找到规避约束的合法路径”,体现出更强的问题重构与规划能力。

五、在 Claude 4.5 家族中的位置

结合官方模型对比:Claude 控制台+1

  • Haiku 4.5: 主打“最快 + 最便宜”,适合高并发、轻量问答与工具子 Agent。
  • Sonnet 4.5: 综合“智能 / 速度 / 成本”最均衡,是推荐默认模型,在多数编码与 Agent 场景中已经足够强。
  • Opus 4.5: 智能水平最高、推理最深、长上下文利用最稳; 代码与复杂 Agent 任务表现最强; 成本和延迟均高于 Sonnet / Haiku,但价格较前代 Opus 大幅下降。






--------------------以下是旧消息,2025年11月25日,Anthropic官方已经发布了Claude Opus 4.5模型了---------------

状态说明:截至当前(2025-11-20),Anthropic 尚未正式发布「Claude Opus 4.5」,相关信息来自开发者社区与社交媒体上的界面/接口泄露与传闻。以下内容仅为对公开可见线索的客观汇总。

模型概览与定位(基于公开线索)

多名开发者在 X 与开发者社区称,在 Claude Code CLI 的请求或 Pull Request 讨论中短暂出现了「Opus 4.5」的模型标识;另有多条爆料称该模型的内部代号为「Neptune V6」,并已进入外部红队(red-teaming)阶段,指向其为 Claude 4.5 系列中的高端/前沿版本(对标已发布的 Sonnet 4.5 / Haiku 4.5)。

可查线索示例:X 上关于「Opus 4.5」在 CLI 请求中被发现的贴文;媒体与社区贴文对「Neptune V6」与即将发布的说法进行了二次报道与讨论。

架构与技术规格

官方尚未披露任何参数规模、架构形态(如是否为 MoE)、训练数据或上下文窗口等技术指标。基于谨慎原则,本条暂不作推测。

能力与模态

官方未披露。结合 Claude 4.1 Opus 与 Sonnet 4.5 的既有定位,外界普遍推测 Opus 4.5 仍将面向复杂推理、长流程编排与高强度编码/工具使用等场景,但缺乏可验证数据,暂不下定论。

性能与评测

暂无官方基准数据或系统卡可引用,故不填。

应用与限制

因未发布且无正式文档,不提供应用建议或限制说明。

访问方式与许可

暂无公开的 API 型号名、定价与许可信息。待官方公告为准。

信息来源(示例)

  • X 上关于「Claude Opus 4.5」在 Claude Code CLI/请求中被发现的贴文与转述。
  • 媒体与社区贴文称新模型代号为 Neptune V6,处于红队阶段并“即将发布”。

注:以上为对公开可见线索的客观转述与归纳,非官方立场,后续以 Anthropic 正式发布为准。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码