Claude Sonnet 4.5vsClaude 3.5 Sonnet New

在 6 个共同 benchmark 中，Claude Sonnet 4.5 整体领先：Claude Sonnet 4.5 领先 6 项，Claude 3.5 Sonnet New 领先 0 项，持平 0 项，平均分差 +16.48。

Anthropic · 2025-09-30 · 聊天大模型

Anthropic · 2024-10-22 · 聊天大模型

Claude Sonnet 4.56 项(100%)(0%)0 项Claude 3.5 Sonnet New

评测分数

按能力类目分组，每组内按分差大小排列；共 6 项。

Claude Sonnet 4.5 领先 2/2

评测项	Claude Sonnet 4.5	Claude 3.5 Sonnet New	分差
SWE-bench Verified	826 / 108	4993 / 108	+33
LiveCodeBench	7147 / 120	38.70102 / 120	+32.30

Claude Sonnet 4.5 领先 2/2

评测项	Claude Sonnet 4.5	Claude 3.5 Sonnet New	分差
GPQA Diamond	83.4058 / 178	65131 / 178	+18.40
MMLU Pro	887 / 126	7869 / 126	+10

Claude Sonnet 4.5 领先 2/2

评测项	Claude Sonnet 4.5	Claude 3.5 Sonnet New	分差
FrontierMath	5.2038 / 60	2.1047 / 60	+3.10
FrontierMath - Tier 4	2.1056 / 80Normal (No Tools)	072 / 80Normal (No Tools)	+2.10

Claude Sonnet 4.5在以下类目领先:Coding and Software Engineer (2/2)、General Knowledge (2/2)、Math and Reasoning (2/2)

6 个共同 benchmark 上，Claude Sonnet 4.5 平均高出 16.48 分。

单项差距最大的 benchmark：SWE-bench Verified — Claude Sonnet 4.5 82，Claude 3.5 Sonnet New 49（分差 +33）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。