Claude Sonnet 4.5vsClaude Sonnet 3.7

在 13 个共同 benchmark 中，Claude Sonnet 4.5 整体领先：Claude Sonnet 4.5 领先 13 项，Claude Sonnet 3.7 领先 0 项，持平 0 项，平均分差 +17.89。

Anthropic · 2025-09-30 · 聊天大模型

Anthropic · 2025-02-25 · 聊天大模型

Claude Sonnet 4.513 项(100%)(0%)0 项Claude Sonnet 3.7

评测分数

按能力类目分组，每组内按分差大小排列；共 13 项。

Claude Sonnet 4.5 领先 3/3

评测项	Claude Sonnet 4.5	Claude Sonnet 3.7	分差
τ²-Bench - Telecom	985 / 35	5531 / 35	+43
τ²-Bench	84.709 / 40	61.8029 / 40	+22.90
Terminal Bench Hard	338 / 13	2113 / 13	+12

Claude Sonnet 4.5 领先 3/3

评测项	Claude Sonnet 4.5	Claude Sonnet 3.7	分差
HLE	33.6067 / 157	10.30131 / 157	+23.30
LiveBench	78.264 / 52	68.6424 / 52	+9.62
GPQA Diamond	83.4058 / 178	7788 / 178	+6.40

Claude Sonnet 4.5 领先 2/2

评测项	Claude Sonnet 4.5	Claude Sonnet 3.7	分差
AIME2025	1001 / 106	54.8084 / 106	+45.20
FrontierMath	5.2038 / 60	4.1041 / 60	+1.10

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Claude Sonnet 3.7	分差
OSWorld-Verified	61.4014 / 18	2818 / 18	+33.40

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Claude Sonnet 3.7	分差
SWE-bench Verified	826 / 108	70.3055 / 108	+11.70

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Claude Sonnet 3.7	分差
AA-LCR	668 / 13	6113 / 13	+5

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Claude Sonnet 3.7	分差
GDPval-AA	3916 / 21	2820 / 21	+11

Claude Sonnet 4.5 领先 1/1

评测项	Claude Sonnet 4.5	Claude Sonnet 3.7	分差
Simple Bench	54.309 / 27	46.4014 / 27	+7.90

Claude Sonnet 4.5在以下类目领先:Agent Level Benchmark (3/3)、General Knowledge (3/3)、Math and Reasoning (2/2)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)、Long Context (1/1)、Productivity Knowledge (1/1)、常识推理 (1/1)

13 个共同 benchmark 上，Claude Sonnet 4.5 平均高出 17.89 分。

单项差距最大的 benchmark：AIME2025 — Claude Sonnet 4.5 100，Claude Sonnet 3.7 54.80（分差 +45.20）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。