Claude Sonnet 4.6
Claude Sonnet 4.6 是由 Anthropic 发布的 AI 模型,发布时间为 2026-02-17,定位为 聊天大模型,上下文长度为 1M,采用 不开源 许可,在 τ²-Bench - Telecom 上取得 97.90 分。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型基本信息
开源和体验地址
官方介绍与博客
API接口信息
| 类型 | 适用条件 | 输入 | 输出 |
|---|---|---|---|
| 文本 | 上下文长度 <= 200K | $3.00/ 1M | $15.00/ 1M |
| 文本 | 上下文长度 > 200K | $6.00/ 1M | $22.50/ 1M |
| 类型 | 有效期 | 写入 | 读取 |
|---|---|---|---|
| 文本 | 5m | $3.75/ 1M 上下文长度 <= 200K | $0.300/ 1M 上下文长度 <= 200K |
| 文本 | 1h | $6.00/ 1M 上下文长度 <= 200K | $0.300/ 1M 上下文长度 <= 200K |
评测结果
Claude Sonnet 4.6 当前已收录的代表性评测结果包括 AA-LCR(1 / 13,得分 71)、LiveBench(12 / 115,得分 75.47)、GPQA Diamond(22 / 179,得分 89.90)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
综合评估
共 7 项评测AI Agent - 工具使用
共 3 项评测和其他模型对比
- 前代版本Claude Sonnet 4.6 vs Claude Sonnet 4.514 个评测
- 同期模型Claude Sonnet 4.6 vs Claude Opus 4.613 个评测
- 同期模型Claude Sonnet 4.6 vs Gemini 3.0 Pro (Preview 11-2025)13 个评测
- 前代版本Claude Sonnet 4.6 vs Claude Sonnet 411 个评测
- 同期模型Claude Sonnet 4.6 vs GPT-5.210 个评测
- 前代版本Claude Sonnet 4.6 vs Claude Sonnet 3.77 个评测
想自定义其他组合?打开对比工具
发布机构
模型解读
Anthropic 于 2026 年 2 月 17 日发布了 Claude Sonnet 4.6,这是其 Sonnet 系列的最新版本。该模型被定位为 Sonnet 家族中能力最强的成员,在编码、计算机使用、长上下文推理、代理规划、知识工作和设计领域进行了全面升级。1M token 上下文窗口以 beta 形式提供(API 优先)。Anthropic 表示,该模型现已成为免费和 Pro 计划在 claude.ai 及 Claude Cowork 中的默认模型,免费层同时新增文件创建、连接器、技能和上下文压缩功能。
能力升级与具体改进
Sonnet 4.6 在多个领域较 Sonnet 4.5 实现显著提升,同时在部分任务中接近或匹配 2026 年 2 月 5 日发布的 Opus 4.6(Anthropic 的前沿模型)。
- 编码:SWE-bench Verified 分数达 79.6%(Sonnet 4.5 为 77.2%,Opus 4.6 为 80.8%);Terminal-Bench 2.0 为 59.1%(Sonnet 4.5 为 51.0%)。在 Claude Code 中,早期开发者偏好率较 4.5 高约 70%,较 Opus 4.5 高 59%。模型在大型代码库导航、复杂 bug 修复、一致性及指令遵循方面改善明显,减少过度工程化和虚假成功声明。
- 计算机使用:OSWorld-Verified 达 72.5%(Sonnet 4.5 为 61.4%,Opus 4.6 为 72.7%);保险基准准确率 94%。支持浏览器自动化、多步表单填写、复杂电子表格导航等零 API 操作任务,接近人类水平。
- 知识工作与文档处理:OfficeQA 表现与 Opus 4.6 相当;Box 重推理 Q&A 较 4.5 提升 15 个百分点;金融服务基准答案匹配率显著提高。适用于企业文档(PDF、图表、表格)分析、金融建模和合规审查。
- 代理规划与长上下文:支持长时序任务规划(如 Vending-Bench Arena 中早期资源投入与后期盈利调整)。1M token 上下文允许处理完整代码库、多份研究论文或长合同。
- 设计:生成布局、动画和视觉输出的迭代次数减少,产出更符合生产标准。
- 其他基准(选摘,来自系统卡):GPQA Diamond 89.9%(Sonnet 4.5 为 83.4%);MMMU-Pro(无工具)74.5%;Humanity’s Last Exam(无工具)33.2%;Finance Agent(最大思考)63.3%;WebArena-Verified 在单代理设置中领先;长上下文测试(OpenAI MRCR v2 1M)65.1%。
模型支持扩展思考模式(更多推理时间)和自适应思考模式(根据难度动态分配计算)。从 Sonnet 4.5 迁移通常只需少量提示调整。训练数据截止至 2025 年 5 月(部分文档提及可靠知识截止 2025 年 8 月,训练截止 2026 年 1 月)。
定价与可用性
定价与 Sonnet 4.5 保持一致:输入 $3 / 百万 token,输出 $15 / 百万 token。API ID 为 claude-sonnet-4-6,上下文窗口 200K(1M beta),最大输出 64K token。
可用平台包括:
- claude.ai(免费/Pro 默认)、Claude Cowork、Claude Code。
- 开发者平台(支持自适应思考、上下文压缩 beta)。
- 主要云服务:Amazon Bedrock(anthropic.claude-sonnet-4-6)、Google Vertex AI、Microsoft Foundry。
- GitHub Copilot(已逐步开放给 Pro+、Business 和 Enterprise 用户)。
- Claude in Excel 插件(支持外部数据连接器,如 S&P Global、FactSet 等)。
官方强调模型性格呈现温暖、诚实、亲社会特征,具备幽默感。第三方评估(Vals AI、Andon Labs、ARC Prize 等)确认其在金融代理、cyber 和行为审计中的表现。Anthropic 继续实施 ASL-3 权重安全措施和持续监控。
总结定位
Sonnet 4.6 将此前主要依赖 Opus 级别的部分办公、编码和代理任务下放至更具性价比的 Sonnet 层级,同时保持中等延迟和规模适用性。Opus 4.6 仍适用于最复杂的前沿任务。模型现已开放,开发者可通过 claude.ai 或 API 直接测试,具体技术细节见 Anthropic 官方公告及系统卡。
该发布延续 Anthropic 约四个月一次的 Sonnet 更新节奏,反映其在平衡性能、成本与安全方面的持续迭代。更多基准细节和使用示例可参考 Anthropic 官网。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
