Claude Sonnet 4.5vsClaude 3.5 Sonnet

在 4 个共同 benchmark 中，Claude Sonnet 4.5 整体领先：Claude Sonnet 4.5 领先 4 项，Claude 3.5 Sonnet 领先 0 项，持平 0 项，平均分差 +10.17。

Anthropic · 2025-09-30 · 聊天大模型

Anthropic · 2024-06-21 · 多模态大模型

Claude Sonnet 4.54 项(100%)(0%)0 项Claude 3.5 Sonnet

评测分数

按能力类目分组，每组内按分差大小排列；共 4 项。

Claude Sonnet 4.5 领先 2/2

评测项	Claude Sonnet 4.5	Claude 3.5 Sonnet	分差
GPQA Diamond	83.4058 / 178	59.40141 / 178	+24
MMLU Pro	887 / 126	77.6474 / 126	+10.36

Claude Sonnet 4.5 领先 2/2

评测项	Claude Sonnet 4.5	Claude 3.5 Sonnet	分差
FrontierMath	5.2038 / 60	152 / 60	+4.20
FrontierMath - Tier 4	2.1056 / 80Normal (No Tools)	072 / 80Normal (No Tools)	+2.10

4 个共同 benchmark 上，Claude Sonnet 4.5 平均高出 10.17 分。

单项差距最大的 benchmark：GPQA Diamond — Claude Sonnet 4.5 83.40，Claude 3.5 Sonnet 59.40（分差 +24）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。