Claude Sonnet 4.5vsClaude Sonnet 3.7

在 13 个共同 benchmark 中,Claude Sonnet 4.5 整体领先:Claude Sonnet 4.5 领先 13 项,Claude Sonnet 3.7 领先 0 项,持平 0 项,平均分差 +17.89。

Anthropic
Claude Sonnet 4.5

Anthropic · 2025-09-30 · 聊天大模型

Anthropic
Claude Sonnet 3.7

Anthropic · 2025-02-25 · 聊天大模型

Claude Sonnet 4.513 (100%)(0%)0 Claude Sonnet 3.7

评测分数

按能力类目分组,每组内按分差大小排列;共 13 项。

Agent Level Benchmark

Claude Sonnet 4.5 领先 3/3
评测项Claude Sonnet 4.5Claude Sonnet 3.7分差
τ²-Bench - Telecom985 / 355531 / 35+43
τ²-Bench84.709 / 4061.8029 / 40+22.90
Terminal Bench Hard338 / 132113 / 13+12

General Knowledge

Claude Sonnet 4.5 领先 3/3
评测项Claude Sonnet 4.5Claude Sonnet 3.7分差
HLE33.6067 / 15710.30131 / 157+23.30
LiveBench78.264 / 5268.6424 / 52+9.62
GPQA Diamond83.4058 / 1787788 / 178+6.40

Math and Reasoning

Claude Sonnet 4.5 领先 2/2
评测项Claude Sonnet 4.5Claude Sonnet 3.7分差
AIME20251001 / 10654.8084 / 106+45.20
FrontierMath5.2038 / 604.1041 / 60+1.10

AI Agent - Tool Usage

Claude Sonnet 4.5 领先 1/1
评测项Claude Sonnet 4.5Claude Sonnet 3.7分差
OSWorld-Verified61.4014 / 182818 / 18+33.40

Coding and Software Engineer

Claude Sonnet 4.5 领先 1/1
评测项Claude Sonnet 4.5Claude Sonnet 3.7分差
SWE-bench Verified826 / 10870.3055 / 108+11.70

Long Context

Claude Sonnet 4.5 领先 1/1
评测项Claude Sonnet 4.5Claude Sonnet 3.7分差
AA-LCR668 / 136113 / 13+5

Productivity Knowledge

Claude Sonnet 4.5 领先 1/1
评测项Claude Sonnet 4.5Claude Sonnet 3.7分差
GDPval-AA3916 / 212820 / 21+11

常识推理

Claude Sonnet 4.5 领先 1/1
评测项Claude Sonnet 4.5Claude Sonnet 3.7分差
Simple Bench54.309 / 2746.4014 / 27+7.90

规格对比

字段Claude Sonnet 4.5Claude Sonnet 3.7
发布机构AnthropicAnthropic
发布时间2025-09-302025-02-25
模型类型聊天大模型聊天大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度1000K128K
最大输出64K暂无数据

小结

  • Claude Sonnet 4.5在以下类目领先:Agent Level Benchmark (3/3)、General Knowledge (3/3)、Math and Reasoning (2/2)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)、Long Context (1/1)、Productivity Knowledge (1/1)、常识推理 (1/1)

13 个共同 benchmark 上,Claude Sonnet 4.5 平均高出 17.89 分。

单项差距最大的 benchmark:AIME2025 — Claude Sonnet 4.5 100,Claude Sonnet 3.7 54.80(分差 +45.20)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。