DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Page navigation
目录
Model catalogClaude Opus 4.6
CL

Claude Opus 4.6

Anthropic Claude Opus 4.6

Release date: 2026-02-05更新于: 2026-03-11 13:42:31知识截止: 2025-051,256
Live demoGitHubHugging FaceCompare
Parameters
Not disclosed
Context length
1000K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Claude Opus 4.6

Model basics

Reasoning traces
Supported
Thinking modes
Thinking Level · Extended (Default)Thinking Level · Off
Context length
1000K tokens
Max output length
131072 tokens
Model type
推理大模型
Release date
2026-02-05
Model file size
0B
MoE architecture
No
Total params / Active params
0.0B / N/A
Knowledge cutoff
2025-05
Claude Opus 4.6

Open source & experience

Code license
不开源
Weights license
不开源- 不开源
GitHub repo
GitHub link unavailable
Hugging Face
Hugging Face link unavailable
Live demo
https://claude.ai/new
Claude Opus 4.6

Official resources

Paper
Introducing Claude Opus 4.6
DataLearnerAI blog
No blog post yet
Claude Opus 4.6

API details

API speed
3/5
💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.
Learn about pricing modes
Standard
TypeConditionInputOutput
TextContext > 200K$10.00/ 1M$37.50/ 1M
TextContext <= 200K$5.00/ 1M$25.00/ 1M
Batch
TypeConditionInputOutput
Text-$2.50/ 1M$12.50/ 1M
Turbo
TypeConditionInputOutput
TextContext <= 200K$30.00/ 1M$150.00/ 1M
TextContext > 200K$60.00/ 1M$225.00/ 1M
Cache PricingPrompt Cache
TypeTTLWriteRead
Text5m$6.25/ 1M
Context <= 200K
$0.500/ 1M
Context <= 200K
Text5m$12.50/ 1M
Context > 200K
$1.00/ 1M
Context > 200K
Text10m$10.00/ 1M
Context <= 200K
$0.500/ 1M
Context <= 200K
Text10m$20.00/ 1M
Context > 200K
$1.00/ 1M
Context > 200K
Claude Opus 4.6

Benchmark Results

Claude Opus 4.6 currently shows benchmark results led by HLE (2 / 113, score 53), τ²-Bench (1 / 39, score 91.89), IF Bench (1 / 26, score 94). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

Thinking
All modesThinking
Tool usage
All modesWith toolsNo tools
Internet
All modesOfflineInternet enabled

综合评估

1 evaluations
Benchmark / mode
Score
Rank/total
HLE
ExtendedToolsInternet
53
2 / 113

AI Agent - 信息收集

1 evaluations
Benchmark / mode
Score
Rank/total
BrowseComp
OnToolsInternet
84
5 / 32

生产力知识

1 evaluations
Benchmark / mode
Score
Rank/total
GDPval-AA
ExtendedToolsInternet
1606
1 / 15
View benchmark analysisCompare with other models
Claude Opus 4.6

Publisher

Anthropic
Anthropic
View publisher details
Anthropic Claude Opus 4.6

Model Overview

Anthropic于2026年2月5日发布了Claude Opus 4.6,这是其大型语言模型系列的更新版本。 该模型重点改进编码、代理任务和复杂推理等领域。以下基于公司公告、独立评估和社区反馈的信息进行总结,提供更多具体数据和实际示例。

基本信息

Claude Opus 4.6由Anthropic开发,是Claude Opus 4.5的继任者。 它可以通过claude.ai网站、Claude API(模型ID为“claude-4-opus-20260205”)以及Microsoft Azure、AWS和Snowflake Cortex AI等云平台访问。 该模型支持文本和图像输入,输出为文本。 标准上下文窗口为200,000个令牌,beta版提供1百万个令牌上下文窗口,最大输出为128,000个令牌。 定价为每百万输入令牌15美元,每百万输出令牌75美元。 在某些集成如GitHub Copilot或Cursor中,引入了“快速模式”,速度提升2-3倍,但成本相应增加。 例如,在Snowflake Cortex AI中,它可用于代码生成和代理执行。

核心特点

该模型强调编码能力的提升,包括更好的规划、在代理任务中的持续性能、在大型代码库中的可靠操作,以及改进的代码审查和调试。 它引入自适应推理功能,能根据任务复杂性自动调整思考深度,适用于复杂场景的深入分析。 其他特点包括在工具使用、网络搜索、金融分析和文档处理方面的更强表现。 与代理团队的集成支持任务并行处理,可用于可扩展的工作流。 该模型针对企业应用设计,如生产代码生成、办公任务和金融分析。 例如,在实际应用中,它能处理大型代码库的导航和修改,或在金融场景中进行自主决策。 此外,它支持多种努力级别配置,如“高努力”和“最大努力”模式,以平衡速度和准确性。

评测结果

在基准测试中,Claude Opus 4.6在多个领域表现出色。例如,在Terminal-Bench 2.0上的代理编码得分为65.4%,高于Opus 4.5的59.8%和GPT-5.2的55.2%。 在OSWorld上的计算机使用得分为72.7%,领先于Opus 4.5的66.3%。 在BrowseComp上的搜索得分为84.0%,优于GPT-5.2的74.3%。 在Finance Agent上的金融任务得分为60.7%,在TaxEval上为76.0%。 它在Humanity's Last Exam(带工具)上的得分为53.1%,在ARC AGI 2上的问题解决得分为68.8%,高于Opus 4.5的37.6%。 在GDPval-AA上,它获得1606 Elo分,比GPT-5.2高144分,比Opus 4.5高190分。 在MRCR v2(8-needle 1M变体)上的长上下文得分达76%,远高于Sonnet 4.5的18.5%。 然而,在某些基准如SWE-bench Verified上,得分略低于Opus 4.5。 在实际测试中,它能构建C编译器或处理物理引擎模拟。

以下是部分基准比较表:

基准Claude Opus 4.6Claude Opus 4.5GPT-5.2Gemini 3 Pro
Terminal-Bench 2.0 (%)65.448.155.2N/A
OSWorld (%)72.766.3N/AN/A
BrowseComp (%)84.068.974.3N/A
ARC AGI 2 (%)68.837.6N/AN/A
GDPval-AA (Elo)160611741220N/A

社区真实评价

用户和测试者的反馈多样。有些开发者报告其在实际工作流中表现出色,例如在复杂编码和调试中解决先前模型无法处理的问题,如大型代码库导航。 一名用户在Medium上分享,Opus 4.6在日常知识工作和金融分析中减少了摩擦,但输出有时较冗长且速度较慢。 在Reddit上,用户讨论其在代码审查基准中的表现,指出它有时以“错误方式”获得高分,但整体代理能力强。 Facebook用户反馈,它在提供知识产权反馈方面优于Gemini 3。 Tom's Guide的测试者表示,它在推理和创意工作中更像人类,但存在意外行为如误导。 YouTube视频中,用户称其为“最佳模型”,特别是在代理编码和多学科推理。 然而,一些反馈提到在MCP Atlas上得分59.5%,低于Opus 4.5的62.3%。 X用户指出,它在处理复杂提示时更好,利用自适应思考。 整体上,社区认为它适合企业级任务,但成本和速度需权衡。



---------------------以下是原有的爆料-----------------


1. Claude Opus 4.6 模型的简介和核心特点
Claude Opus 4.6 是 Anthropic 预计于 2026 年初发布的最新一代旗舰级大语言模型,属于 Claude Opus 系列的最新迭代版本。根据社区泄露信息及行业传闻,该模型被定位为 Claude Opus 4.5 的继任者,旨在进一步突破大模型在复杂推理、长文本处理及深度思考任务上的能力天花板。其核心目标是应对日益激烈的 AGI 竞赛,特别是在与 GPT-5 系列及 Gemini 后续版本的竞争中保持领先地位。尽管官方尚未正式官宣,但市场普遍预测其将在编码能力和智能体(Agent)协作方面有显著提升。

2. 架构与技术规格
虽然具体参数尚未公开,但推测 Claude Opus 4.6 将延续并优化 Anthropic 的高参数量架构(可能涉及 MoE 混合专家架构以提升效率)。
- 上下文窗口:预计将继承或超越前代标准的 200K token 上下文窗口,并可能在特定版本中支持高达 1M token 的超长上下文,以适应企业级知识库分析需求。
- 训练数据:据推测,其训练数据截止日期(Knowledge Cutoff)将更新至 2025 年底,涵盖更广泛的科学文献、代码库及多语言语料。

3. 核心能力与支持模态
- 模态支持:作为多模态大模型,Claude Opus 4.6 预计将全面支持文本、图像的输入与输出,并可能增强对复杂图表、手写体及文档的视觉解析能力。
- 能力详述:该模型最引人注目的特性是其对“思考模式(Thinking Mode)”的深度支持。通过扩展的思维链(CoT)处理,模型在处理数学难题、复杂逻辑编程及多步规划任务时,能够展示更清晰的推理过程,减少幻觉并提高准确性。

4. 性能与基准评测
根据泄露的早期测试反馈(如 Reddit 社区讨论),Opus 4.6 在内部测试中表现出了超越 Opus 4.5 的潜力。尽管尚无经官方验证的 GPQA 或 MMLU 得分,但泄露源声称其在编码(Coding)和复杂指令遵循方面有“质的飞跃”,可能旨在重新定义 2026 年的 SOTA(State of the Art)标准。

5. 应用场景与限制
- 推荐用例:适用于需要极高准确度和深度的场景,如科学研究辅助、复杂软件工程、法律文书起草及战略决策模拟。
- 已知局限:作为超大参数模型,其推理成本和延迟可能仍高于 Sonnet 系列,且在非思考模式下可能仍会受限于知识截止时间带来的信息滞后。

6. 访问方式与许可
预计发布后将通过 Anthropic API、Claude.ai 网页端以及主要的云服务合作伙伴(如 AWS Bedrock, Google Vertex AI)提供访问。该模型预计为闭源商业模型。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码