Claude Sonnet 4.5vsClaude 3.5 Sonnet New

在 6 个共同 benchmark 中,Claude Sonnet 4.5 整体领先:Claude Sonnet 4.5 领先 6 项,Claude 3.5 Sonnet New 领先 0 项,持平 0 项,平均分差 +16.48。

Anthropic
Claude Sonnet 4.5

Anthropic · 2025-09-30 · 聊天大模型

Anthropic
Claude 3.5 Sonnet New

Anthropic · 2024-10-22 · 聊天大模型

Claude Sonnet 4.56 (100%)(0%)0 Claude 3.5 Sonnet New

评测分数

按能力类目分组,每组内按分差大小排列;共 6 项。

Coding and Software Engineer

Claude Sonnet 4.5 领先 2/2
评测项Claude Sonnet 4.5Claude 3.5 Sonnet New分差
SWE-bench Verified826 / 1084993 / 108+33
LiveCodeBench7147 / 12038.70102 / 120+32.30

General Knowledge

Claude Sonnet 4.5 领先 2/2
评测项Claude Sonnet 4.5Claude 3.5 Sonnet New分差
GPQA Diamond83.4058 / 17865131 / 178+18.40
MMLU Pro887 / 1267869 / 126+10

Math and Reasoning

Claude Sonnet 4.5 领先 2/2
评测项Claude Sonnet 4.5Claude 3.5 Sonnet New分差
FrontierMath5.2038 / 602.1047 / 60+3.10
FrontierMath - Tier 42.1056 / 80Normal (No Tools)072 / 80Normal (No Tools)+2.10

规格对比

字段Claude Sonnet 4.5Claude 3.5 Sonnet New
发布机构AnthropicAnthropic
发布时间2025-09-302024-10-22
模型类型聊天大模型聊天大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度1000K200K
最大输出64K暂无数据

小结

  • Claude Sonnet 4.5在以下类目领先:Coding and Software Engineer (2/2)、General Knowledge (2/2)、Math and Reasoning (2/2)

6 个共同 benchmark 上,Claude Sonnet 4.5 平均高出 16.48 分。

单项差距最大的 benchmark:SWE-bench Verified — Claude Sonnet 4.5 82,Claude 3.5 Sonnet New 49(分差 +33)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。