Claude Sonnet 4.6vsClaude Sonnet 4.5

在 12 个共同 benchmark 中,Claude Sonnet 4.6 整体领先:Claude Sonnet 4.6 领先 9 项,Claude Sonnet 4.5 领先 3 项,持平 0 项,平均分差 +14.26。

Anthropic
Claude Sonnet 4.6

Anthropic · 2026-02-17 · 聊天大模型

Anthropic
Claude Sonnet 4.5

Anthropic · 2025-09-30 · 聊天大模型

Claude Sonnet 4.69 (75%)(25%)3 Claude Sonnet 4.5

评测分数

按能力类目分组,每组内按分差大小排列;共 12 项。

General Knowledge

Claude Sonnet 4.6 领先 3/3
评测项Claude Sonnet 4.6Claude Sonnet 4.5分差
ARC-AGI-258.3018 / 5913.6035 / 59+44.70
HLE4925 / 15733.6067 / 157+15.40
GPQA Diamond89.9021 / 17883.4058 / 178+6.50

AI Agent - Tool Usage

Claude Sonnet 4.6 领先 2/2
评测项Claude Sonnet 4.6Claude Sonnet 4.5分差
Terminal Bench 2.059.1022 / 4642.8041 / 46+16.30
OSWorld-Verified72.5010 / 1861.4014 / 18+11.10

Agent Level Benchmark

Claude Sonnet 4.5 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4.5分差
τ²-Bench - Telecom97.909 / 35985 / 35-0.10

AI Agent - Information Search

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4.5分差
BrowseComp74.7020 / 4524.1043 / 45+50.60

Claw-style Agent Evaluation

Claude Sonnet 4.5 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4.5分差
Pinch Bench885 / 37Thinking (With Tools)88.204 / 37Thinking (With Tools)-0.20

Coding and Software Engineer

Claude Sonnet 4.5 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4.5分差
SWE-bench Verified79.6017 / 108826 / 108-2.40

Long Context

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4.5分差
AA-LCR711 / 13668 / 13+5

Math and Reasoning

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4.5分差
FrontierMath - Tier 48.3034 / 80Thinking (No Tools, 16K Budget)2.1056 / 80Normal (No Tools)+6.20

Productivity Knowledge

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6Claude Sonnet 4.5分差
GDPval-AA5711 / 213916 / 21+18

规格对比

字段Claude Sonnet 4.6Claude Sonnet 4.5
发布机构AnthropicAnthropic
发布时间2026-02-172025-09-30
模型类型聊天大模型聊天大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度1M1000K
最大输出8K64K

API 调用价格

价格优先使用 DataLearner 配置的 API 记录;缺失项不做推测。

价格项Claude Sonnet 4.6Claude Sonnet 4.5
文本输入$3 / 1M tokens暂无公开价格
文本输出$15 / 1M tokens暂无公开价格
缓存读取$0.3 / 1M tokens暂无公开价格
缓存写入$3.75 / 1M tokens暂无公开价格

部分模型公开价格不完整,缺失字段按"暂无公开价格"展示。

小结

  • Claude Sonnet 4.6在以下类目领先:General Knowledge (3/3)、AI Agent - Tool Usage (2/2)、AI Agent - Information Search (1/1)、Long Context (1/1)、Math and Reasoning (1/1)、Productivity Knowledge (1/1)
  • Claude Sonnet 4.5在以下类目领先:Agent Level Benchmark (1/1)、Claw-style Agent Evaluation (1/1)、Coding and Software Engineer (1/1)

12 个共同 benchmark 上,Claude Sonnet 4.6 平均高出 14.26 分。

单项差距最大的 benchmark:BrowseComp — Claude Sonnet 4.6 74.70,Claude Sonnet 4.5 24.10(分差 +50.60)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。