Claude Sonnet 4.5vsClaude Sonnet 3.7
在 13 个共同 benchmark 中,Claude Sonnet 4.5 整体领先:Claude Sonnet 4.5 领先 13 项,Claude Sonnet 3.7 领先 0 项,持平 0 项,平均分差 +17.89。
Claude Sonnet 4.5
Anthropic · 2025-09-30 · 聊天大模型
Claude Sonnet 3.7
Anthropic · 2025-02-25 · 聊天大模型
Claude Sonnet 4.513 项(100%)(0%)0 项Claude Sonnet 3.7
评测分数
按能力类目分组,每组内按分差大小排列;共 13 项。
Agent Level Benchmark
Claude Sonnet 4.5 领先 3/3| 评测项 | Claude Sonnet 4.5 | Claude Sonnet 3.7 | 分差 |
|---|---|---|---|
| τ²-Bench - Telecom | 985 / 35 | 5531 / 35 | +43 |
| τ²-Bench | 84.709 / 40 | 61.8029 / 40 | +22.90 |
| Terminal Bench Hard | 338 / 13 | 2113 / 13 | +12 |
General Knowledge
Claude Sonnet 4.5 领先 3/3| 评测项 | Claude Sonnet 4.5 | Claude Sonnet 3.7 | 分差 |
|---|---|---|---|
| HLE | 33.6067 / 157 | 10.30131 / 157 | +23.30 |
| LiveBench | 78.264 / 52 | 68.6424 / 52 | +9.62 |
| GPQA Diamond | 83.4058 / 178 | 7788 / 178 | +6.40 |
Math and Reasoning
Claude Sonnet 4.5 领先 2/2| 评测项 | Claude Sonnet 4.5 | Claude Sonnet 3.7 | 分差 |
|---|---|---|---|
| AIME2025 | 1001 / 106 | 54.8084 / 106 | +45.20 |
| FrontierMath | 5.2038 / 60 | 4.1041 / 60 | +1.10 |
AI Agent - Tool Usage
Claude Sonnet 4.5 领先 1/1| 评测项 | Claude Sonnet 4.5 | Claude Sonnet 3.7 | 分差 |
|---|---|---|---|
| OSWorld-Verified | 61.4014 / 18 | 2818 / 18 | +33.40 |
Coding and Software Engineer
Claude Sonnet 4.5 领先 1/1| 评测项 | Claude Sonnet 4.5 | Claude Sonnet 3.7 | 分差 |
|---|---|---|---|
| SWE-bench Verified | 826 / 108 | 70.3055 / 108 | +11.70 |
Long Context
Claude Sonnet 4.5 领先 1/1| 评测项 | Claude Sonnet 4.5 | Claude Sonnet 3.7 | 分差 |
|---|---|---|---|
| AA-LCR | 668 / 13 | 6113 / 13 | +5 |
Productivity Knowledge
Claude Sonnet 4.5 领先 1/1| 评测项 | Claude Sonnet 4.5 | Claude Sonnet 3.7 | 分差 |
|---|---|---|---|
| GDPval-AA | 3916 / 21 | 2820 / 21 | +11 |
常识推理
Claude Sonnet 4.5 领先 1/1| 评测项 | Claude Sonnet 4.5 | Claude Sonnet 3.7 | 分差 |
|---|---|---|---|
| Simple Bench | 54.309 / 27 | 46.4014 / 27 | +7.90 |
规格对比
| 字段 | Claude Sonnet 4.5 | Claude Sonnet 3.7 |
|---|---|---|
| 发布机构 | Anthropic | Anthropic |
| 发布时间 | 2025-09-30 | 2025-02-25 |
| 模型类型 | 聊天大模型 | 聊天大模型 |
| 架构 | 稠密模型 | 稠密模型 |
| 参数规模 | 暂无数据 | 暂无数据 |
| 上下文长度 | 1000K | 128K |
| 最大输出 | 64K | 暂无数据 |
小结
- Claude Sonnet 4.5在以下类目领先:Agent Level Benchmark (3/3)、General Knowledge (3/3)、Math and Reasoning (2/2)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)、Long Context (1/1)、Productivity Knowledge (1/1)、常识推理 (1/1)
13 个共同 benchmark 上,Claude Sonnet 4.5 平均高出 17.89 分。
单项差距最大的 benchmark:AIME2025 — Claude Sonnet 4.5 100,Claude Sonnet 3.7 54.80(分差 +45.20)。
本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。