Claude Sonnet 4.5vsClaude Sonnet 4

在 26 个共同 benchmark 中，Claude Sonnet 4.5 整体领先：Claude Sonnet 4.5 领先 23 项，Claude Sonnet 4 领先 1 项，持平 2 项，平均分差 +14.79。

Claude Sonnet 4.5

Anthropic · 2025-09-30 · 聊天大模型

Claude Sonnet 4

Anthropic · 2025-05-23 · 推理大模型

Claude Sonnet 4.523 项(88%)持平2(4%)1 项Claude Sonnet 4

评测分数

按能力类目分组，每组内按分差大小排列；共 26 项。

General Knowledge

Claude Sonnet 4.5 领先 5/6

评测项	Claude Sonnet 4.5	Claude Sonnet 4	分差
HLE	33.6080 / 172	9.60149 / 172	+24
ARC-AGI	63.7035 / 68	4049 / 68	+23.70
ARC-AGI-2	13.6038 / 62	5.9046 / 62	+7.70
MMLU Pro	887 / 132	8438 / 132	+4
LiveBench	53.6983 / 115Normal (No Tools)	50.9889 / 115Normal (No Tools)	+2.71
GPQA Diamond	83.4063 / 187	83.8062 / 187	-0.40

Math and Reasoning

Claude Sonnet 4.5 领先 3/5

评测项	Claude Sonnet 4.5	Claude Sonnet 4	分差
AIME2025	1001 / 107	8551 / 107	+15
FrontierMath - Tier 4	2.1056 / 80Normal (No Tools)	072 / 80Normal (No Tools)	+2.10
FrontierMath	5.2038 / 60	4.1041 / 60	+1.10
IMO-ProofBench	27.108 / 16	27.108 / 16	持平
IMO-ProofBench Advanced	4.806 / 8	4.806 / 8	持平

Coding and Software Engineer

Claude Sonnet 4.5 领先 4/4

评测项	Claude Sonnet 4.5	Claude Sonnet 4	分差
CodeClash	1,3891 / 8Normal (With Tools)	1,2234 / 8Normal (With Tools)	+166
LiveCodeBench	7148 / 123	6659 / 123	+5
SWE-bench Verified	828 / 112	80.2014 / 112	+1.80
SWE-Bench Pro - Public	43.6047 / 54	42.7048 / 54	+0.90

Agent Level Benchmark

Claude Sonnet 4.5 领先 2/2

评测项	Claude Sonnet 4.5	Claude Sonnet 4	分差
τ²-Bench - Telecom	985 / 35	6529 / 35	+33
τ²-Bench	84.709 / 43	5234 / 43	+32.70

AI Agent - Tool Usage

Claude Sonnet 4.5 领先 2/2

评测项	Claude Sonnet 4.5	Claude Sonnet 4	分差
OSWorld-Verified	61.4020 / 24	42.2022 / 24	+19.20
Terminal-Bench	503 / 35	41.3010 / 35	+8.70

Claw-style Agent Evaluation

Claude Sonnet 4.5 领先 2/2

评测项	Claude Sonnet 4.5	Claude Sonnet 4	分差
Claw Bench	88.1013 / 29Thinking (With Tools)	77.8023 / 29Thinking (With Tools)	+10.30
Pinch Bench	88.204 / 37Thinking (With Tools)	80.5022 / 37Thinking (With Tools)	+7.70

Instruction Following

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Claude Sonnet 4	分差
IF Bench	57.3022 / 30	5523 / 30	+2.30

Long Context

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Claude Sonnet 4	分差
AA-LCR	6610 / 15	6512 / 15	+1

Multimodal Understanding

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Claude Sonnet 4	分差
MMMU	77.8015 / 29	76.5017 / 29	+1.30

Productivity Knowledge

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Claude Sonnet 4	分差
GDPval-AA	3916 / 21	3319 / 21	+6

常识推理

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Claude Sonnet 4	分差
Simple Bench	54.3022 / 63Normal (No Tools)	45.5034 / 63Thinking (No Tools)	+8.80

规格对比

字段	Claude Sonnet 4.5	Claude Sonnet 4
发布机构	Anthropic	Anthropic
发布时间	2025-09-30	2025-05-23
模型类型	聊天大模型	推理大模型
架构	稠密模型	稠密模型
参数规模	暂无数据	暂无数据
上下文长度	1000K	200K
最大输出	64K	64K

API 调用价格

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

价格项	Claude Sonnet 4.5	Claude Sonnet 4
文本输入	$3 / 1M tokens	$3 / 1M tokens
文本输出	$15 / 1M tokens	$15 / 1M tokens
缓存读取	$0.3 / 1M tokens	$0.3 / 1M tokens
缓存写入	$3.75 / 1M tokens	$3.75 / 1M tokens

小结

Claude Sonnet 4.5在以下类目领先:General Knowledge (5/6)、Math and Reasoning (3/5)、Coding and Software Engineer (4/4)、Agent Level Benchmark (2/2)、AI Agent - Tool Usage (2/2)、Claw-style Agent Evaluation (2/2)、Instruction Following (1/1)、Long Context (1/1)、Multimodal Understanding (1/1)、Productivity Knowledge (1/1)、常识推理 (1/1)

26 个共同 benchmark 上，Claude Sonnet 4.5 平均高出 14.79 分。

单项差距最大的 benchmark：CodeClash — Claude Sonnet 4.5 1,389，Claude Sonnet 4 1,223（分差 +166）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。

Claude Sonnet 4.5 详情 Claude Sonnet 4 详情·在工具里自定义对比