DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogClaude Sonnet 4.6
CL

Claude Sonnet 4.6

Claude Sonnet 4.6

Release date: 2026-02-17更新于: 2026-02-18 11:08:47知识截止: 2026-0139
Live demoGitHubHugging FaceCompare
Parameters
Not disclosed
Context length
1M
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Claude Sonnet 4.6

Model basics

Reasoning traces
Supported
Context length
1M tokens
Max output length
8192 tokens
Model type
聊天大模型
Release date
2026-02-17
Model file size
No data
MoE architecture
No
Total params / Active params
0.0B / N/A
Knowledge cutoff
2026-01
Inference modes
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
Claude Sonnet 4.6

Open source & experience

Code license
不开源
Weights license
不开源- 不开源
GitHub repo
GitHub link unavailable
Hugging Face
Hugging Face link unavailable
Live demo
https://claude.ai
Claude Sonnet 4.6

Official resources

Paper
Introducing Claude Sonnet 4.6
DataLearnerAI blog
No blog post yet
Claude Sonnet 4.6

API details

API speed
No data
💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.
Learn about pricing modes
Standard
TypeConditionInputOutput
TextContext <= 200K$3.00/ 1M$15.00/ 1M
TextContext > 200K$6.00/ 1M$22.50/ 1M
Cache PricingPrompt Cache
TypeTTLWriteRead
Text5m$3.75/ 1M
Context <= 200K
$0.300/ 1M
Context <= 200K
Text1h$6.00/ 1M
Context <= 200K
$0.300/ 1M
Context <= 200K
Claude Sonnet 4.6

Benchmark Results

Tool usage

综合评估

4 evaluations
Benchmark / mode
Score
Rank/total
GPQA DiamondThinking
89.90
7 / 150
ARC-AGI-2Thinking
58.30
6 / 33
HLEThinking + With tools
49
7 / 99
HLEThinking
33.20
27 / 99

编程与软件工程

1 evaluations
Benchmark / mode
Score
Rank/total
SWE-bench VerifiedThinking
79.60
7 / 85

Agent能力评测

1 evaluations
Benchmark / mode
Score
Rank/total
τ²-Bench - TelecomThinking + With tools
97.90
6 / 26

AI Agent - 信息收集

1 evaluations
Benchmark / mode
Score
Rank/total
BrowseCompThinking + With tools
74.70
8 / 25

AI Agent - 工具使用

2 evaluations
Benchmark / mode
Score
Rank/total
OSWorld-VerifiedThinking + With tools
72.50
1 / 2
Terminal Bench 2.0Thinking + With tools
59.10
5 / 18

生产力知识

1 evaluations
Benchmark / mode
Score
Rank/total
GDPval-AAThinking
1633
1 / 6
查看评测深度分析与其他模型对比
Claude Sonnet 4.6

Publisher

Anthropic
Anthropic
View publisher details
Claude Sonnet 4.6

Model Overview

Anthropic 于 2026 年 2 月 17 日发布了 Claude Sonnet 4.6,这是其 Sonnet 系列的最新版本。该模型被定位为 Sonnet 家族中能力最强的成员,在编码、计算机使用、长上下文推理、代理规划、知识工作和设计领域进行了全面升级。1M token 上下文窗口以 beta 形式提供(API 优先)。Anthropic 表示,该模型现已成为免费和 Pro 计划在 claude.ai 及 Claude Cowork 中的默认模型,免费层同时新增文件创建、连接器、技能和上下文压缩功能。

能力升级与具体改进

Sonnet 4.6 在多个领域较 Sonnet 4.5 实现显著提升,同时在部分任务中接近或匹配 2026 年 2 月 5 日发布的 Opus 4.6(Anthropic 的前沿模型)。

  • 编码:SWE-bench Verified 分数达 79.6%(Sonnet 4.5 为 77.2%,Opus 4.6 为 80.8%);Terminal-Bench 2.0 为 59.1%(Sonnet 4.5 为 51.0%)。在 Claude Code 中,早期开发者偏好率较 4.5 高约 70%,较 Opus 4.5 高 59%。模型在大型代码库导航、复杂 bug 修复、一致性及指令遵循方面改善明显,减少过度工程化和虚假成功声明。
  • 计算机使用:OSWorld-Verified 达 72.5%(Sonnet 4.5 为 61.4%,Opus 4.6 为 72.7%);保险基准准确率 94%。支持浏览器自动化、多步表单填写、复杂电子表格导航等零 API 操作任务,接近人类水平。
  • 知识工作与文档处理:OfficeQA 表现与 Opus 4.6 相当;Box 重推理 Q&A 较 4.5 提升 15 个百分点;金融服务基准答案匹配率显著提高。适用于企业文档(PDF、图表、表格)分析、金融建模和合规审查。
  • 代理规划与长上下文:支持长时序任务规划(如 Vending-Bench Arena 中早期资源投入与后期盈利调整)。1M token 上下文允许处理完整代码库、多份研究论文或长合同。
  • 设计:生成布局、动画和视觉输出的迭代次数减少,产出更符合生产标准。
  • 其他基准(选摘,来自系统卡):GPQA Diamond 89.9%(Sonnet 4.5 为 83.4%);MMMU-Pro(无工具)74.5%;Humanity’s Last Exam(无工具)33.2%;Finance Agent(最大思考)63.3%;WebArena-Verified 在单代理设置中领先;长上下文测试(OpenAI MRCR v2 1M)65.1%。

模型支持扩展思考模式(更多推理时间)和自适应思考模式(根据难度动态分配计算)。从 Sonnet 4.5 迁移通常只需少量提示调整。训练数据截止至 2025 年 5 月(部分文档提及可靠知识截止 2025 年 8 月,训练截止 2026 年 1 月)。

定价与可用性

定价与 Sonnet 4.5 保持一致:输入 $3 / 百万 token,输出 $15 / 百万 token。API ID 为 claude-sonnet-4-6,上下文窗口 200K(1M beta),最大输出 64K token。

可用平台包括:

  • claude.ai(免费/Pro 默认)、Claude Cowork、Claude Code。
  • 开发者平台(支持自适应思考、上下文压缩 beta)。
  • 主要云服务:Amazon Bedrock(anthropic.claude-sonnet-4-6)、Google Vertex AI、Microsoft Foundry。
  • GitHub Copilot(已逐步开放给 Pro+、Business 和 Enterprise 用户)。
  • Claude in Excel 插件(支持外部数据连接器,如 S&P Global、FactSet 等)。

官方强调模型性格呈现温暖、诚实、亲社会特征,具备幽默感。第三方评估(Vals AI、Andon Labs、ARC Prize 等)确认其在金融代理、cyber 和行为审计中的表现。Anthropic 继续实施 ASL-3 权重安全措施和持续监控。

总结定位

Sonnet 4.6 将此前主要依赖 Opus 级别的部分办公、编码和代理任务下放至更具性价比的 Sonnet 层级,同时保持中等延迟和规模适用性。Opus 4.6 仍适用于最复杂的前沿任务。模型现已开放,开发者可通过 claude.ai 或 API 直接测试,具体技术细节见 Anthropic 官方公告及系统卡。

该发布延续 Anthropic 约四个月一次的 Sonnet 更新节奏,反映其在平衡性能、成本与安全方面的持续迭代。更多基准细节和使用示例可参考 Anthropic 官网。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码