Claude Sonnet 4.6vsClaude Sonnet 4

在 10 个共同 benchmark 中，Claude Sonnet 4.6 整体领先：Claude Sonnet 4.6 领先 9 项，Claude Sonnet 4 领先 1 项，持平 0 项，平均分差 +20.63。

Anthropic · 2026-02-17 · 聊天大模型

Anthropic · 2025-05-23 · 推理大模型

Claude Sonnet 4.69 项(90%)(10%)1 项Claude Sonnet 4

评测分数

按能力类目分组，每组内按分差大小排列；共 10 项。

Claude Sonnet 4.6 领先 3/3

评测项	Claude Sonnet 4.6	Claude Sonnet 4	分差
ARC-AGI-2	58.3018 / 59	5.9043 / 59	+52.40
HLE	4925 / 157	9.60134 / 157	+39.40
GPQA Diamond	89.9021 / 178	83.8057 / 178	+6.10

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4	分差
τ²-Bench - Telecom	97.909 / 35	6529 / 35	+32.90

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4	分差
OSWorld-Verified	72.5010 / 18	42.2016 / 18	+30.30

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4	分差
Pinch Bench	885 / 37Thinking (With Tools)	80.5022 / 37Thinking (With Tools)	+7.50

Claude Sonnet 4 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4	分差
SWE-bench Verified	79.6017 / 108	80.2013 / 108	-0.60

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4	分差
AA-LCR	711 / 13	6510 / 13	+6

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4	分差
FrontierMath - Tier 4	8.3034 / 80Thinking (No Tools, 16K Budget)	072 / 80Normal (No Tools)	+8.30

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4	分差
GDPval-AA	5711 / 21	3319 / 21	+24

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

部分模型公开价格不完整，缺失字段按"暂无公开价格"展示。

Claude Sonnet 4.6在以下类目领先:General Knowledge (3/3)、Agent Level Benchmark (1/1)、AI Agent - Tool Usage (1/1)、Claw-style Agent Evaluation (1/1)、Long Context (1/1)、Math and Reasoning (1/1)、Productivity Knowledge (1/1)
Claude Sonnet 4在以下类目领先:Coding and Software Engineer (1/1)

10 个共同 benchmark 上，Claude Sonnet 4.6 平均高出 20.63 分。

单项差距最大的 benchmark：ARC-AGI-2 — Claude Sonnet 4.6 58.30，Claude Sonnet 4 5.90（分差 +52.40）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。