Claude Sonnet 4.5vsClaude 3.5 Sonnet

在 4 个共同 benchmark 中,Claude Sonnet 4.5 整体领先:Claude Sonnet 4.5 领先 4 项,Claude 3.5 Sonnet 领先 0 项,持平 0 项,平均分差 +10.17。

Anthropic
Claude Sonnet 4.5

Anthropic · 2025-09-30 · 聊天大模型

Anthropic
Claude 3.5 Sonnet

Anthropic · 2024-06-21 · 多模态大模型

Claude Sonnet 4.54 (100%)(0%)0 Claude 3.5 Sonnet

评测分数

按能力类目分组,每组内按分差大小排列;共 4 项。

General Knowledge

Claude Sonnet 4.5 领先 2/2
评测项Claude Sonnet 4.5Claude 3.5 Sonnet分差
GPQA Diamond83.4058 / 17859.40141 / 178+24
MMLU Pro887 / 12677.6474 / 126+10.36

Math and Reasoning

Claude Sonnet 4.5 领先 2/2
评测项Claude Sonnet 4.5Claude 3.5 Sonnet分差
FrontierMath5.2038 / 60152 / 60+4.20
FrontierMath - Tier 42.1056 / 80Normal (No Tools)072 / 80Normal (No Tools)+2.10

规格对比

字段Claude Sonnet 4.5Claude 3.5 Sonnet
发布机构AnthropicAnthropic
发布时间2025-09-302024-06-21
模型类型聊天大模型多模态大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度1000K200K
最大输出64K暂无数据

小结

  • Claude Sonnet 4.5在以下类目领先:General Knowledge (2/2)、Math and Reasoning (2/2)

4 个共同 benchmark 上,Claude Sonnet 4.5 平均高出 10.17 分。

单项差距最大的 benchmark:GPQA Diamond — Claude Sonnet 4.5 83.40,Claude 3.5 Sonnet 59.40(分差 +24)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。