Claude Sonnet 4.6

Name: Claude Sonnet 4.6
Price: 3 USD
Availability: InStock
Author: Anthropic

聊天大模型SonnetClaude 4.6

Claude Sonnet 4.6

发布时间: 2026-02-17更新于: 2026-06-15 07:18:22.942知识截止: 2026-011,960

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

中文支持

支持

推理能力

Claude Sonnet 4.6 是由 Anthropic 发布的 AI 模型，发布时间为 2026-02-17，定位为聊天大模型，上下文长度为 1M，采用不开源许可，在 τ²-Bench - Telecom 上取得 97.90 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Claude Sonnet 4.6

模型基本信息

推理过程

支持

思考模式

常规模式思考水平 · 深度 (Deep)

上下文长度

1M tokens

最大输出长度

8K tokens

模型类型

聊天大模型

输入/输出模态

文本、图像 → 文本

发布时间

2026-02-17

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

2026-01

Claude Sonnet 4.6

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://claude.ai

Claude Sonnet 4.6

官方介绍与博客

官方论文

Introducing Claude Sonnet 4.6

DataLearnerAI博客

暂无介绍博客

Claude Sonnet 4.6

API接口信息

接口速度

暂无数据

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

了解不同定价模式详解

标准模式

类型	适用条件	输入	输出
文本	上下文长度 <= 200K	$3.00/ 1M	$15.00/ 1M
文本	上下文长度 > 200K	$6.00/ 1M	$22.50/ 1M

缓存定价Prompt缓存

类型	有效期	写入	读取
文本	5m	$3.75/ 1M 上下文长度 <= 200K	$0.300/ 1M 上下文长度 <= 200K
文本	1h	$6.00/ 1M 上下文长度 <= 200K	$0.300/ 1M 上下文长度 <= 200K

Claude Sonnet 4.6

评测结果

Claude Sonnet 4.6 当前已收录的代表性评测结果包括 AA-LCR（1 / 13，得分 71）、LiveBench（12 / 115，得分 75.47）、GPQA Diamond（22 / 179，得分 89.90）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 7 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

89.90

22 / 179

LiveBench

低

70.44

36 / 115

LiveBench

中

75.47

12 / 115

LiveBench

高

75.32

15 / 115

ARC-AGI-2

58.30

18 / 59

HLE

27 / 161

HLE

33.20

72 / 161

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

79.60

17 / 108

DeepSWE

高工具

8 / 9

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

FrontierMath - Tier 4

16K

8.30

34 / 80

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

97.90

9 / 35

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

74.70

21 / 46

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

OSWorld-Verified

72.50

11 / 19

MCP-Atlas

常规模式工具

69.50

13 / 23

Terminal Bench 2.0

59.10

22 / 46

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

11 / 21

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

1 / 13

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

Pinch Bench

思考模式工具

5 / 37

查看评测深度分析与其他模型对比

和其他模型对比

想自定义其他组合？打开对比工具

Claude Sonnet 4.6

发布机构

Anthropic

查看发布机构详情

Claude Sonnet 4.6

模型解读

Anthropic 于 2026 年 2 月 17 日发布了 Claude Sonnet 4.6，这是其 Sonnet 系列的最新版本。该模型被定位为 Sonnet 家族中能力最强的成员，在编码、计算机使用、长上下文推理、代理规划、知识工作和设计领域进行了全面升级。1M token 上下文窗口以 beta 形式提供（API 优先）。Anthropic 表示，该模型现已成为免费和 Pro 计划在 claude.ai 及 Claude Cowork 中的默认模型，免费层同时新增文件创建、连接器、技能和上下文压缩功能。

能力升级与具体改进

Sonnet 4.6 在多个领域较 Sonnet 4.5 实现显著提升，同时在部分任务中接近或匹配 2026 年 2 月 5 日发布的 Opus 4.6（Anthropic 的前沿模型）。

编码：SWE-bench Verified 分数达 79.6%（Sonnet 4.5 为 77.2%，Opus 4.6 为 80.8%）；Terminal-Bench 2.0 为 59.1%（Sonnet 4.5 为 51.0%）。在 Claude Code 中，早期开发者偏好率较 4.5 高约 70%，较 Opus 4.5 高 59%。模型在大型代码库导航、复杂 bug 修复、一致性及指令遵循方面改善明显，减少过度工程化和虚假成功声明。
计算机使用：OSWorld-Verified 达 72.5%（Sonnet 4.5 为 61.4%，Opus 4.6 为 72.7%）；保险基准准确率 94%。支持浏览器自动化、多步表单填写、复杂电子表格导航等零 API 操作任务，接近人类水平。
知识工作与文档处理：OfficeQA 表现与 Opus 4.6 相当；Box 重推理 Q&A 较 4.5 提升 15 个百分点；金融服务基准答案匹配率显著提高。适用于企业文档（PDF、图表、表格）分析、金融建模和合规审查。
代理规划与长上下文：支持长时序任务规划（如 Vending-Bench Arena 中早期资源投入与后期盈利调整）。1M token 上下文允许处理完整代码库、多份研究论文或长合同。
设计：生成布局、动画和视觉输出的迭代次数减少，产出更符合生产标准。
其他基准（选摘，来自系统卡）：GPQA Diamond 89.9%（Sonnet 4.5 为 83.4%）；MMMU-Pro（无工具）74.5%；Humanity’s Last Exam（无工具）33.2%；Finance Agent（最大思考）63.3%；WebArena-Verified 在单代理设置中领先；长上下文测试（OpenAI MRCR v2 1M）65.1%。

模型支持扩展思考模式（更多推理时间）和自适应思考模式（根据难度动态分配计算）。从 Sonnet 4.5 迁移通常只需少量提示调整。训练数据截止至 2025 年 5 月（部分文档提及可靠知识截止 2025 年 8 月，训练截止 2026 年 1 月）。

定价与可用性

定价与 Sonnet 4.5 保持一致：输入 $3 / 百万 token，输出 $15 / 百万 token。API ID 为 claude-sonnet-4-6，上下文窗口 200K（1M beta），最大输出 64K token。

可用平台包括：

claude.ai（免费/Pro 默认）、Claude Cowork、Claude Code。
开发者平台（支持自适应思考、上下文压缩 beta）。
主要云服务：Amazon Bedrock（anthropic.claude-sonnet-4-6）、Google Vertex AI、Microsoft Foundry。
GitHub Copilot（已逐步开放给 Pro+、Business 和 Enterprise 用户）。
Claude in Excel 插件（支持外部数据连接器，如 S&P Global、FactSet 等）。

官方强调模型性格呈现温暖、诚实、亲社会特征，具备幽默感。第三方评估（Vals AI、Andon Labs、ARC Prize 等）确认其在金融代理、cyber 和行为审计中的表现。Anthropic 继续实施 ASL-3 权重安全措施和持续监控。

总结定位

Sonnet 4.6 将此前主要依赖 Opus 级别的部分办公、编码和代理任务下放至更具性价比的 Sonnet 层级，同时保持中等延迟和规模适用性。Opus 4.6 仍适用于最复杂的前沿任务。模型现已开放，开发者可通过 claude.ai 或 API 直接测试，具体技术细节见 Anthropic 官方公告及系统卡。

该发布延续 Anthropic 约四个月一次的 Sonnet 更新节奏，反映其在平衡性能、成本与安全方面的持续迭代。更多基准细节和使用示例可参考 Anthropic 官网。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送