Claude Sonnet 4.6vsClaude Sonnet 4

在 10 个共同 benchmark 中,Claude Sonnet 4.6 整体领先:Claude Sonnet 4.6 领先 9 项,Claude Sonnet 4 领先 1 项,持平 0 项,平均分差 +20.63。

Anthropic
Claude Sonnet 4.6

Anthropic · 2026-02-17 · 聊天大模型

Anthropic
Claude Sonnet 4

Anthropic · 2025-05-23 · 推理大模型

Claude Sonnet 4.69 (90%)(10%)1 Claude Sonnet 4

评测分数

按能力类目分组,每组内按分差大小排列;共 10 项。

General Knowledge

Claude Sonnet 4.6 领先 3/3
评测项Claude Sonnet 4.6Claude Sonnet 4分差
ARC-AGI-258.3018 / 595.9043 / 59+52.40
HLE4925 / 1579.60134 / 157+39.40
GPQA Diamond89.9021 / 17883.8057 / 178+6.10

Agent Level Benchmark

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4分差
τ²-Bench - Telecom97.909 / 356529 / 35+32.90

AI Agent - Tool Usage

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4分差
OSWorld-Verified72.5010 / 1842.2016 / 18+30.30

Claw-style Agent Evaluation

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4分差
Pinch Bench885 / 37Thinking (With Tools)80.5022 / 37Thinking (With Tools)+7.50

Coding and Software Engineer

Claude Sonnet 4 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4分差
SWE-bench Verified79.6017 / 10880.2013 / 108-0.60

Long Context

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4分差
AA-LCR711 / 136510 / 13+6

Math and Reasoning

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4分差
FrontierMath - Tier 48.3034 / 80Thinking (No Tools, 16K Budget)072 / 80Normal (No Tools)+8.30

Productivity Knowledge

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4分差
GDPval-AA5711 / 213319 / 21+24

规格对比

字段Claude Sonnet 4.6Claude Sonnet 4
发布机构AnthropicAnthropic
发布时间2026-02-172025-05-23
模型类型聊天大模型推理大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度1M200K
最大输出8K64K

API 调用价格

价格优先使用 DataLearner 配置的 API 记录;缺失项不做推测。

价格项Claude Sonnet 4.6Claude Sonnet 4
文本输入$3 / 1M tokens暂无公开价格
文本输出$15 / 1M tokens暂无公开价格
缓存读取$0.3 / 1M tokens暂无公开价格
缓存写入$3.75 / 1M tokens暂无公开价格

部分模型公开价格不完整,缺失字段按"暂无公开价格"展示。

小结

  • Claude Sonnet 4.6在以下类目领先:General Knowledge (3/3)、Agent Level Benchmark (1/1)、AI Agent - Tool Usage (1/1)、Claw-style Agent Evaluation (1/1)、Long Context (1/1)、Math and Reasoning (1/1)、Productivity Knowledge (1/1)
  • Claude Sonnet 4在以下类目领先:Coding and Software Engineer (1/1)

10 个共同 benchmark 上,Claude Sonnet 4.6 平均高出 20.63 分。

单项差距最大的 benchmark:ARC-AGI-2 — Claude Sonnet 4.6 58.30,Claude Sonnet 4 5.90(分差 +52.40)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。