加载中...

Claude Opus 4.6

Name: Anthropic Claude Opus 4.6
Author: Anthropic

Anthropic Claude Opus 4.6

Release date: 2026-02-05更新于: 2026-03-11 13:42:31知识截止: 2025-051,256

Live demoGitHubHugging FaceCompare

Parameters

Not disclosed

Context length

1000K

Chinese support

Supported

Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Claude Opus 4.6

Model basics

Reasoning traces

Supported

Thinking modes

Thinking Level · Extended (Default)Thinking Level · Off

Context length

1000K tokens

Max output length

131072 tokens

Model type

推理大模型

Release date

2026-02-05

Model file size

MoE architecture

Total params / Active params

0.0B / N/A

Knowledge cutoff

2025-05

Claude Opus 4.6

Open source & experience

Code license

不开源

Weights license

不开源- 不开源

GitHub repo

GitHub link unavailable

Hugging Face

Hugging Face link unavailable

Live demo

https://claude.ai/new

Claude Opus 4.6

Official resources

Paper

Introducing Claude Opus 4.6

DataLearnerAI blog

No blog post yet

Claude Opus 4.6

API details

API speed

3/5

💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.

Learn about pricing modes

Standard

Type	Condition	Input	Output
Text	Context > 200K	$10.00/ 1M	$37.50/ 1M
Text	Context <= 200K	$5.00/ 1M	$25.00/ 1M

Batch

Type	Condition	Input	Output
Text	-	$2.50/ 1M	$12.50/ 1M

Turbo

Type	Condition	Input	Output
Text	Context <= 200K	$30.00/ 1M	$150.00/ 1M
Text	Context > 200K	$60.00/ 1M	$225.00/ 1M

Cache PricingPrompt Cache

Type	TTL	Write	Read
Text	5m	$6.25/ 1M Context <= 200K	$0.500/ 1M Context <= 200K
Text	5m	$12.50/ 1M Context > 200K	$1.00/ 1M Context > 200K
Text	10m	$10.00/ 1M Context <= 200K	$0.500/ 1M Context <= 200K
Text	10m	$20.00/ 1M Context > 200K	$1.00/ 1M Context > 200K

Claude Opus 4.6

Benchmark Results

Claude Opus 4.6 currently shows benchmark results led by HLE (2 / 113, score 53), τ²-Bench (1 / 39, score 91.89), IF Bench (1 / 26, score 94). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

综合评估

1 evaluations

Benchmark / mode

Score

Rank/total

HLE

ExtendedToolsInternet

2 / 113

AI Agent - 信息收集

1 evaluations

Benchmark / mode

Score

Rank/total

BrowseComp

OnToolsInternet

5 / 32

生产力知识

1 evaluations

Benchmark / mode

Score

Rank/total

GDPval-AA

ExtendedToolsInternet

1606

1 / 15

View benchmark analysis Compare with other models

Claude Opus 4.6

Publisher

Anthropic

View publisher details

Anthropic Claude Opus 4.6

Model Overview

Anthropic于2026年2月5日发布了Claude Opus 4.6，这是其大型语言模型系列的更新版本。该模型重点改进编码、代理任务和复杂推理等领域。以下基于公司公告、独立评估和社区反馈的信息进行总结，提供更多具体数据和实际示例。

基本信息

Claude Opus 4.6由Anthropic开发，是Claude Opus 4.5的继任者。它可以通过claude.ai网站、Claude API（模型ID为“claude-4-opus-20260205”）以及Microsoft Azure、AWS和Snowflake Cortex AI等云平台访问。该模型支持文本和图像输入，输出为文本。标准上下文窗口为200,000个令牌，beta版提供1百万个令牌上下文窗口，最大输出为128,000个令牌。定价为每百万输入令牌15美元，每百万输出令牌75美元。在某些集成如GitHub Copilot或Cursor中，引入了“快速模式”，速度提升2-3倍，但成本相应增加。例如，在Snowflake Cortex AI中，它可用于代码生成和代理执行。

核心特点

该模型强调编码能力的提升，包括更好的规划、在代理任务中的持续性能、在大型代码库中的可靠操作，以及改进的代码审查和调试。它引入自适应推理功能，能根据任务复杂性自动调整思考深度，适用于复杂场景的深入分析。其他特点包括在工具使用、网络搜索、金融分析和文档处理方面的更强表现。与代理团队的集成支持任务并行处理，可用于可扩展的工作流。该模型针对企业应用设计，如生产代码生成、办公任务和金融分析。例如，在实际应用中，它能处理大型代码库的导航和修改，或在金融场景中进行自主决策。此外，它支持多种努力级别配置，如“高努力”和“最大努力”模式，以平衡速度和准确性。

评测结果

在基准测试中，Claude Opus 4.6在多个领域表现出色。例如，在Terminal-Bench 2.0上的代理编码得分为65.4%，高于Opus 4.5的59.8%和GPT-5.2的55.2%。在OSWorld上的计算机使用得分为72.7%，领先于Opus 4.5的66.3%。在BrowseComp上的搜索得分为84.0%，优于GPT-5.2的74.3%。在Finance Agent上的金融任务得分为60.7%，在TaxEval上为76.0%。它在Humanity's Last Exam（带工具）上的得分为53.1%，在ARC AGI 2上的问题解决得分为68.8%，高于Opus 4.5的37.6%。在GDPval-AA上，它获得1606 Elo分，比GPT-5.2高144分，比Opus 4.5高190分。在MRCR v2（8-needle 1M变体）上的长上下文得分达76%，远高于Sonnet 4.5的18.5%。然而，在某些基准如SWE-bench Verified上，得分略低于Opus 4.5。在实际测试中，它能构建C编译器或处理物理引擎模拟。

以下是部分基准比较表：

基准	Claude Opus 4.6	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro
Terminal-Bench 2.0 (%)	65.4	48.1	55.2	N/A
OSWorld (%)	72.7	66.3	N/A	N/A
BrowseComp (%)	84.0	68.9	74.3	N/A
ARC AGI 2 (%)	68.8	37.6	N/A	N/A
GDPval-AA (Elo)	1606	1174	1220	N/A

社区真实评价

用户和测试者的反馈多样。有些开发者报告其在实际工作流中表现出色，例如在复杂编码和调试中解决先前模型无法处理的问题，如大型代码库导航。一名用户在Medium上分享，Opus 4.6在日常知识工作和金融分析中减少了摩擦，但输出有时较冗长且速度较慢。在Reddit上，用户讨论其在代码审查基准中的表现，指出它有时以“错误方式”获得高分，但整体代理能力强。 Facebook用户反馈，它在提供知识产权反馈方面优于Gemini 3。 Tom's Guide的测试者表示，它在推理和创意工作中更像人类，但存在意外行为如误导。 YouTube视频中，用户称其为“最佳模型”，特别是在代理编码和多学科推理。然而，一些反馈提到在MCP Atlas上得分59.5%，低于Opus 4.5的62.3%。 X用户指出，它在处理复杂提示时更好，利用自适应思考。整体上，社区认为它适合企业级任务，但成本和速度需权衡。

---------------------以下是原有的爆料-----------------

1. Claude Opus 4.6 模型的简介和核心特点
Claude Opus 4.6 是 Anthropic 预计于 2026 年初发布的最新一代旗舰级大语言模型，属于 Claude Opus 系列的最新迭代版本。根据社区泄露信息及行业传闻，该模型被定位为 Claude Opus 4.5 的继任者，旨在进一步突破大模型在复杂推理、长文本处理及深度思考任务上的能力天花板。其核心目标是应对日益激烈的 AGI 竞赛，特别是在与 GPT-5 系列及 Gemini 后续版本的竞争中保持领先地位。尽管官方尚未正式官宣，但市场普遍预测其将在编码能力和智能体（Agent）协作方面有显著提升。

2. 架构与技术规格
虽然具体参数尚未公开，但推测 Claude Opus 4.6 将延续并优化 Anthropic 的高参数量架构（可能涉及 MoE 混合专家架构以提升效率）。
- 上下文窗口：预计将继承或超越前代标准的 200K token 上下文窗口，并可能在特定版本中支持高达 1M token 的超长上下文，以适应企业级知识库分析需求。
- 训练数据：据推测，其训练数据截止日期（Knowledge Cutoff）将更新至 2025 年底，涵盖更广泛的科学文献、代码库及多语言语料。

3. 核心能力与支持模态
- 模态支持：作为多模态大模型，Claude Opus 4.6 预计将全面支持文本、图像的输入与输出，并可能增强对复杂图表、手写体及文档的视觉解析能力。
- 能力详述：该模型最引人注目的特性是其对“思考模式（Thinking Mode）”的深度支持。通过扩展的思维链（CoT）处理，模型在处理数学难题、复杂逻辑编程及多步规划任务时，能够展示更清晰的推理过程，减少幻觉并提高准确性。

4. 性能与基准评测
根据泄露的早期测试反馈（如 Reddit 社区讨论），Opus 4.6 在内部测试中表现出了超越 Opus 4.5 的潜力。尽管尚无经官方验证的 GPQA 或 MMLU 得分，但泄露源声称其在编码（Coding）和复杂指令遵循方面有“质的飞跃”，可能旨在重新定义 2026 年的 SOTA（State of the Art）标准。

5. 应用场景与限制
- 推荐用例：适用于需要极高准确度和深度的场景，如科学研究辅助、复杂软件工程、法律文书起草及战略决策模拟。
- 已知局限：作为超大参数模型，其推理成本和延迟可能仍高于 Sonnet 系列，且在非思考模式下可能仍会受限于知识截止时间带来的信息滞后。

6. 访问方式与许可
预计发布后将通过 Anthropic API、Claude.ai 网页端以及主要的云服务合作伙伴（如 AWS Bedrock, Google Vertex AI）提供访问。该模型预计为闭源商业模型。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

加载中...

Claude Opus 4.6

Anthropic Claude Opus 4.6

Release date: 2026-02-05更新于: 2026-03-11 13:42:31知识截止: 2025-051,256

Live demoGitHubHugging FaceCompare

Parameters

Not disclosed

Context length

1000K

Chinese support

Supported

Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Claude Opus 4.6

Model basics

Reasoning traces

Supported

Thinking modes

Thinking Level · Extended (Default)Thinking Level · Off

Context length

1000K tokens

Max output length

131072 tokens

Model type

推理大模型

Release date

2026-02-05

Model file size

MoE architecture

Total params / Active params

0.0B / N/A

Knowledge cutoff

2025-05

Claude Opus 4.6

Open source & experience

Code license

不开源

Weights license

不开源- 不开源

GitHub repo

GitHub link unavailable

Hugging Face

Hugging Face link unavailable

Live demo

https://claude.ai/new

Claude Opus 4.6

Official resources

Paper

Introducing Claude Opus 4.6

DataLearnerAI blog

No blog post yet

Claude Opus 4.6

API details

API speed

3/5

💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.

Learn about pricing modes

Standard

Type	Condition	Input	Output
Text	Context > 200K	$10.00/ 1M	$37.50/ 1M
Text	Context <= 200K	$5.00/ 1M	$25.00/ 1M

Batch

Type	Condition	Input	Output
Text	-	$2.50/ 1M	$12.50/ 1M

Turbo

Type	Condition	Input	Output
Text	Context <= 200K	$30.00/ 1M	$150.00/ 1M
Text	Context > 200K	$60.00/ 1M	$225.00/ 1M

Cache PricingPrompt Cache

Type	TTL	Write	Read
Text	5m	$6.25/ 1M Context <= 200K	$0.500/ 1M Context <= 200K
Text	5m	$12.50/ 1M Context > 200K	$1.00/ 1M Context > 200K
Text	10m	$10.00/ 1M Context <= 200K	$0.500/ 1M Context <= 200K
Text	10m	$20.00/ 1M Context > 200K	$1.00/ 1M Context > 200K

Claude Opus 4.6

Benchmark Results

综合评估

1 evaluations

Benchmark / mode

Score

Rank/total

HLE

ExtendedToolsInternet

2 / 113

AI Agent - 信息收集

1 evaluations

Benchmark / mode

Score

Rank/total

BrowseComp

OnToolsInternet

5 / 32

生产力知识

1 evaluations

Benchmark / mode

Score

Rank/total

GDPval-AA

ExtendedToolsInternet

1606

1 / 15

View benchmark analysis Compare with other models

Claude Opus 4.6

Publisher

Anthropic

View publisher details

Anthropic Claude Opus 4.6

Model Overview

基本信息

核心特点

评测结果

以下是部分基准比较表：

基准	Claude Opus 4.6	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro
Terminal-Bench 2.0 (%)	65.4	48.1	55.2	N/A
OSWorld (%)	72.7	66.3	N/A	N/A
BrowseComp (%)	84.0	68.9	74.3	N/A
ARC AGI 2 (%)	68.8	37.6	N/A	N/A
GDPval-AA (Elo)	1606	1174	1220	N/A

社区真实评价

---------------------以下是原有的爆料-----------------

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送