Claude Sonnet 4.6vsClaude Sonnet 4.5

在 14 个共同 benchmark 中，Claude Sonnet 4.6 整体领先：Claude Sonnet 4.6 领先 11 项，Claude Sonnet 4.5 领先 3 项，持平 0 项，平均分差 +14.49。

Anthropic · 2026-02-17 · 聊天大模型

Anthropic · 2025-09-30 · 聊天大模型

Claude Sonnet 4.611 项(79%)(21%)3 项Claude Sonnet 4.5

评测分数

按能力类目分组，每组内按分差大小排列；共 14 项。

Claude Sonnet 4.6 领先 4/4

评测项	Claude Sonnet 4.6	Claude Sonnet 4.5	分差
ARC-AGI-2	58.3021 / 62	13.6038 / 62	+44.70
LiveBench	75.4712 / 115Thinking Medium (No Tools)	53.6983 / 115Normal (No Tools)	+21.78
HLE	4932 / 172	33.6080 / 172	+15.40
GPQA Diamond	89.9024 / 187	83.4063 / 187	+6.50

Claude Sonnet 4.6 领先 3/3

评测项	Claude Sonnet 4.6	Claude Sonnet 4.5	分差
Terminal Bench 2.0	59.1022 / 47	42.8042 / 47	+16.30
OSWorld-Verified	72.5016 / 24	61.4020 / 24	+11.10
MCP-Atlas	69.5017 / 27Normal (With Tools)	59.5021 / 27Thinking (With Tools)	+10

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4.5	分差
τ²-Bench - Telecom	97.909 / 35	985 / 35	-0.10

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4.5	分差
BrowseComp	74.7027 / 53	24.1051 / 53	+50.60

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4.5	分差
Pinch Bench	885 / 37Thinking (With Tools)	88.204 / 37Thinking (With Tools)	-0.20

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4.5	分差
SWE-bench Verified	79.6018 / 112	828 / 112	-2.40

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4.5	分差
AA-LCR	713 / 15	6610 / 15	+5

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4.5	分差
FrontierMath - Tier 4	8.3034 / 80Thinking (No Tools, 16K Budget)	2.1056 / 80Normal (No Tools)	+6.20

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Sonnet 4.5	分差
GDPval-AA	5711 / 21	3916 / 21	+18

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

Claude Sonnet 4.6在以下类目领先:General Knowledge (4/4)、AI Agent - Tool Usage (3/3)、AI Agent - Information Search (1/1)、Long Context (1/1)、Math and Reasoning (1/1)、Productivity Knowledge (1/1)
Claude Sonnet 4.5在以下类目领先:Agent Level Benchmark (1/1)、Claw-style Agent Evaluation (1/1)、Coding and Software Engineer (1/1)

14 个共同 benchmark 上，Claude Sonnet 4.6 平均高出 14.49 分。

单项差距最大的 benchmark：BrowseComp — Claude Sonnet 4.6 74.70，Claude Sonnet 4.5 24.10（分差 +50.60）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。