Claude Sonnet 4.6 评测深度分析

Claude Sonnet 4.6 当前已收录的代表性评测结果包括 AA-LCR（1 / 13，得分 71）、LiveBench（12 / 115，得分 75.47）、GPQA Diamond（22 / 179，得分 89.90）。本页还提供与 3 个竞品模型及 3 个前代或同系列模型的对比，在有数据时会展示性能和价格视图。并附有 3 个数据来源链接供参考。

Anthropic 于 2026 年 2 月 17 日正式发布 Claude Sonnet 4.6，这是其 Sonnet 系列的最新版本。该模型延续了 Anthropic 一贯的“可靠、可控”设计理念，重点在编码、计算机使用（鼠标键盘操作）、长上下文推理、代理规划和知识工作等领域进行优化，同时保持与前代 Sonnet 4.5 相同的 API 定价。官方定位为“最强 Sonnet 模型”，可作为免费/Pro 用户在 claude.ai 上的默认模型，也支持 API 和各大云平台接入。以下分析基于 Anthropic 官方公告、系统卡（system card）及部分第三方报道的数据，力求客观呈现其实际表现，不涉及主观溢美。

核心特性与可用性

上下文窗口：1M token（beta 阶段），支持上下文压缩和自适应思考模式，便于处理完整代码库、长文档或多轮代理任务。
定价：输入 $3/百万 token，输出 $15/百万 token，与 Sonnet 4.5 一致；对比旗舰 Opus 4.6（约 $15/$75），成本约为其五分之一。
其他功能：支持工具调用（网页搜索、代码执行）、视觉输出优化、Claude Code 等产品集成。安全评估显示其幻觉率和逢迎倾向较低，整体对齐水平与 Opus 4.6 相当或略优。

这些特性使 Sonnet 4.6 更适合高频、次旗舰级工作负载，而非必须依赖 Opus 的极端复杂场景。

基准性能数据

Anthropic 系统卡提供了详细对照表（结果多为 10 次平均，采用自适应思考/最大努力配置，除特殊注明）。以下选取代表性指标，与前代及主要竞品（Gemini 3 Pro、GPT-5.2 等）对比：

基准项目	Sonnet 4.6	Opus 4.6	Sonnet 4.5	Gemini 3 Pro	GPT-5.2
SWE-bench Verified (真实编码)	79.6%	80.8%	77.2%	76.2%	80.0%
OSWorld-Verified (计算机使用)	72.5%	72.7%	61.4%	—	—
GDPval-AA Elo (知识/办公任务)	1633	1606	1276	1201	1462
GPQA Diamond (研究生级推理)	89.9%	91.3%	83.4%	91.9%	93.2%
ARC-AGI-2 (max effort)	60.4%	69.2%	13.6%	31.1%	54.2%
Terminal-Bench 2.0	59.1%	65.4%	51.0%	56.2%	64.7%
HLE (Humanity’s Last Exam, with tools)	49.0%	53.0%	33.6%	45.8%	50.0%
金融代理分析 (准确率)	63.3% (max thinking)	60.05%	—	—	58.53%

数据解读：

编码与代理任务：SWE-bench 上接近 Opus 水平，OSWorld 计算机使用能力从 2024 年 10 月的 14.9% 提升至 72.5%，反映出 Anthropic 在 GUI 操作上的持续投入。在实际办公/金融场景（GDPval-AA、保险基准 94%）中，Sonnet 4.6 甚至略超 Opus 4.6，说明其在“实用代理”维度已具备高性价比。
长上下文：1M token 下 8-needle MRCR 测试匹配率 65.1%（64k 采样），远高于 Sonnet 4.5 的 18.5%，但仍落后于 Opus 4.6 的 78.3%。
通用推理：GPQA、MMMLU 等指标处于前列，但未全面领先 GPT-5.2 或 Gemini 3 Pro。
用户偏好测试（Claude Code 内部）：开发者偏好 Sonnet 4.6 胜过 Sonnet 4.5 的比例约 70%，胜过 Opus 4.5 的比例约 59%，主要反馈为指令跟随更准、幻觉更少、多步执行更一致。

总体而言，Sonnet 4.6 在多数基准中实现了对前代的显著跃升，在部分真实世界代理任务上已逼近或超越更昂贵的旗舰模型，但纯学术推理（如 GPQA）仍与最顶尖竞品存在小幅差距。

实际应用优势与潜在局限

优势：

性价比突出：企业用户（如 Hex、Box、Replit、Mercury Banking）反馈显示，在多数编码、文档处理和自动化场景中，Sonnet 4.6 可替代 Opus 完成 80-90% 的工作负载，成本优势在高频调用时尤为明显。
计算机使用与代理：支持无 API 的浏览器/桌面操作，在保险、ERP 等遗留系统自动化中展现较强自纠错能力。
安全表现：单轮违规请求拒绝率 99.38%，提示注入抵抗力较 Sonnet 4.5 有明显提升，整体符合 ASL-3 标准，无重大对齐风险报告。

局限（基于当前公开信息）：

发布仅数日，独立第三方大规模评测尚少，多数数据来源于 Anthropic 或其合作伙伴。
部分用户初步测试提到响应速度偶有波动、极少数简单任务可能出现低级错误（需更多验证）。
计算机使用仍处于实验性阶段，复杂 GUI 场景的可靠性距离“完全人类水平”仍有距离。
长上下文在极端 1M 负载下衰减仍存在（虽已大幅改善）。

总结

Claude Sonnet 4.6 是 Anthropic 在“中端高效”路线上的又一成果：它没有追求单一基准的绝对第一，而是通过平衡能力、成本和可靠性，在实际知识工作和代理场景中提供了极具吸引力的选项。对于预算敏感的开发者、企业自动化或高频交互应用而言，它可能是当前最具实用价值的升级选择；对于需要极致前沿推理的用户，仍可结合 Opus 4.6 形成梯度部署。

客观来看，AI 模型迭代已进入“边际收益递减但实用价值持续提升”的阶段。Sonnet 4.6 的意义更多在于“让旗舰级能力变得可规模化”，而非颠覆性突破。建议开发者结合自身工作流进行小规模测试，以获取最贴合的结论。官方参考链接：https://www.anthropic.com/news/claude-sonnet-4-6 及系统卡文件。

（本文数据截至 2026 年 2 月 17-18 日公开信息，后续独立评测可能进一步补充或修正。）

评测结果

Claude Sonnet 4.6

评测结果

综合评估

共 7 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

89.90

22 / 179

LiveBench

思考水平·低

70.44

36 / 115

LiveBench

思考水平·中

75.47

12 / 115

LiveBench

思考水平·高

75.32

15 / 115

ARC-AGI-2

58.30

18 / 59

HLE

27 / 161

HLE

33.20

72 / 161

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

79.60

17 / 108

DeepSWE

思考水平·高工具

8 / 9

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

FrontierMath - Tier 4

16K

8.30

34 / 80

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

97.90

9 / 35

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

74.70

21 / 46

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

OSWorld-Verified

72.50

11 / 19

MCP-Atlas

常规模式工具

69.50

13 / 23

Terminal Bench 2.0

59.10

22 / 46

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

11 / 21

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

1 / 13

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

Pinch Bench

开启思考工具

5 / 37

与其他模型对比

竞品对比

Claude Sonnet 4.6 与同类主流模型的评测得分对比

Claude Sonnet 4.6Claude Opus 4.6 GPT-5.2 Gemini 3.0 Pro (Preview 11-2025)

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	Claude Sonnet 4.6当前	Claude Opus 4.6	GPT-5.2	Gemini 3.0 Pro (Preview 11-2025)
ARC-AGI-2 综合评估	58.30开启思考	66.30扩展思考	54.20深度思考模式	45.10开启思考
GPQA Diamond 综合评估	89.90开启思考	91.31扩展思考	93.20深度思考模式	93.80开启思考
HLE 综合评估	49.00开启思考｜工具	53.00扩展思考｜工具	45.50深度思考模式｜工具	45.80思考水平·高｜工具
LiveBench 综合评估	75.47思考水平·中	--	48.91常规模式	73.39思考水平·高
SWE-bench Verified 编程与软件工程	79.60开启思考	80.84扩展思考｜工具	--	76.20开启思考
FrontierMath - Tier 4 数学推理	8.3016K	22.90思考水平·高	18.80思考水平·极高	18.80开启思考
τ²-Bench - Telecom Agent能力评测	97.90开启思考｜工具	99.25扩展思考｜工具	--	98.00思考水平·高｜工具
BrowseComp AI Agent - 信息收集	74.70开启思考｜工具	84.00开启思考｜工具	65.80深度思考模式｜工具	59.20思考水平·高｜工具
MCP-Atlas AI Agent - 工具使用	69.50常规模式｜工具	76.80深度思考模式｜工具	67.60思考水平·极高｜工具	70.30常规模式｜工具
OSWorld-Verified AI Agent - 工具使用	72.50开启思考｜工具	72.70扩展思考｜工具	--	--
Terminal Bench 2.0 AI Agent - 工具使用	59.10开启思考｜工具	65.40扩展思考｜工具	--	56.90思考水平·高｜工具
GDPval-AA 生产力知识	57.00开启思考	1606.00扩展思考｜工具	70.90思考水平·高｜工具	35.00思考水平·高

其余 2 个 benchmark 仍可在上方图表中查看。

Claude Sonnet 4.6 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Claude Sonnet 4.6: 标准价适用于 <= 200K

Claude Opus 4.6: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
Claude Sonnet 4.6	Anthropic	$3 / 1M tokens	$15 / 1M tokens	<= 200K
Claude Opus 4.6	Anthropic	$5 / 1M tokens	$25 / 1M tokens	<= 200K
GPT-5.2	Facebook AI研究实验室	$1.75 / 1M tokens	$14 / 1M tokens	—

历代版本对比

Claude Sonnet 4.6 系列各版本的评测成绩纵向对比

Claude Sonnet 4.6Claude Sonnet 4.5 Claude Sonnet 4 Claude Sonnet 3.7

评测类别:

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	Claude Sonnet 4.6当前	Claude Sonnet 4.5	Claude Sonnet 4	Claude Sonnet 3.7
ARC-AGI-2 综合评估	58.30开启思考	13.60开启思考	5.90开启思考	--
GPQA Diamond 综合评估	89.90开启思考	83.40开启思考	83.80深度思考模式｜工具	77.00开启思考
HLE 综合评估	49.00开启思考｜工具	33.60开启思考｜工具	9.60开启思考	10.30开启思考
LiveBench 综合评估	75.47思考水平·中	68.1964K	61.2764K	--
SWE-bench Verified 编程与软件工程	79.60开启思考	82.00开启思考｜工具	80.20开启思考｜工具	70.30开启思考｜工具
FrontierMath - Tier 4 数学推理	8.3016K	4.2032K	0.00常规模式	--
τ²-Bench - Telecom Agent能力评测	97.90开启思考｜工具	98.00开启思考｜工具	65.00开启思考｜工具	55.00开启思考｜工具
BrowseComp AI Agent - 信息收集	74.70开启思考｜工具	24.10开启思考｜工具	--	--
MCP-Atlas AI Agent - 工具使用	69.50常规模式｜工具	59.50开启思考｜工具	--	--
OSWorld-Verified AI Agent - 工具使用	72.50开启思考｜工具	61.40开启思考｜工具	42.20开启思考｜工具	28.00开启思考｜工具
Terminal Bench 2.0 AI Agent - 工具使用	59.10开启思考｜工具	42.80开启思考｜工具	--	--
GDPval-AA 生产力知识	57.00开启思考	39.00开启思考	33.00开启思考	28.00开启思考

其余 2 个 benchmark 仍可在上方图表中查看。

单评测历史趋势图

当前查看：ARC-AGI-2 · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

Claude Sonnet 4.6 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Claude Sonnet 4.6: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
Claude Sonnet 4.6	Anthropic	$3 / 1M tokens	$15 / 1M tokens	<= 200K

数据来源

anthropic.comanthropic.com artificialanalysis.aiartificialanalysis.ai pinchbench.compinchbench.com