Claude Sonnet 4.5 评测深度分析

Claude Sonnet 4.5 当前已收录的代表性评测结果包括 AIME2025(1 / 106,得分 100)、SWE-bench Verified(6 / 108,得分 82)、MMLU Pro(7 / 126,得分 88)。本页还提供与 2 个竞品模型及 4 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。

Sonnet 4.5是Anthropic一个中等能力的模型,但很多评测结果不比Opus差。

评测结果

Claude Sonnet 4.5

评测结果

思考模式
工具使用

综合评估

共 12 项评测
评测名称 / 模式
得分
排名/总数
88
7 / 126
83.40
59 / 179
73.70
98 / 179
LiveBench
常规模式
53.69
83 / 115
68.19
46 / 115
63.70
32 / 65
25.50
52 / 65
33.60
69 / 159
17.70
113 / 159
7.10
146 / 159
13.60
35 / 59
3.80
49 / 59

编程与软件工程

共 6 项评测
评测名称 / 模式
得分
排名/总数
CodeClash
常规模式工具
1389
1 / 8
77.20
25 / 108
71
47 / 120
59
71 / 120

数学推理

共 8 项评测
评测名称 / 模式
得分
排名/总数
100
1 / 106
87
45 / 106
37
96 / 106
27.10
8 / 16
5.20
38 / 60
2.10
56 / 80
4.20
40 / 80

AI Agent - 工具使用

共 5 项评测
评测名称 / 模式
得分
排名/总数
61.40
14 / 18
MCP-Atlas
开启思考工具
59.50
17 / 23
42.80
41 / 46

多模态理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
77.80
14 / 28

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
常规模式
54.30
22 / 63

Agent能力评测

共 4 项评测
评测名称 / 模式
得分
排名/总数

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
57.30
21 / 29

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
24.10
43 / 45

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
39
16 / 21

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
66
8 / 13

OpenClaw智能体能力综合测评

共 2 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
开启思考工具
88.20
4 / 37
Claw Bench
开启思考工具
88.10
13 / 29

竞品对比

Claude Sonnet 4.5 与同类主流模型的评测得分对比

Claude Sonnet 4.5GPT-5.1Gemini 2.5-Pro
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项Claude Sonnet 4.5当前GPT-5.1Gemini 2.5-Pro
ARC-AGI
综合评估
63.70开启思考
72.80思考水平·高
37.00开启思考
ARC-AGI-2
综合评估
13.60开启思考
17.60思考水平·高
4.90开启思考
GPQA Diamond
综合评估
83.40开启思考
88.10开启思考
86.40开启思考
HLE
综合评估
33.60开启思考 | 工具
42.70思考水平·高 | 工具
21.60开启思考
LiveBench
综合评估
68.1964K
72.04思考水平·高
58.33思考水平·高
MMLU Pro
综合评估
88.00开启思考
--
86.00常规模式
CodeClash
编程与软件工程
1389.00常规模式 | 工具
--
1125.00常规模式 | 工具
LiveCodeBench
编程与软件工程
71.00开启思考
--
77.10常规模式
SWE-Bench Pro - Public
编程与软件工程
43.60开启思考
50.80思考水平·高
--
SWE-bench Verified
编程与软件工程
82.00开启思考 | 工具
76.30思考水平·高
67.20开启思考
AIME2025
数学推理
100.00开启思考 | 工具
94.00思考水平·高
88.00开启思考
FrontierMath
数学推理
5.20常规模式
26.70思考水平·高 | 工具
11.00常规模式
其余 13 个 benchmark 仍可在上方图表中查看。

Claude Sonnet 4.5 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

历代版本对比

Claude Sonnet 4.5 系列各版本的评测成绩纵向对比

评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项Claude Sonnet 4.5当前Claude Sonnet 4Claude Sonnet 3.7Claude 3.5 Sonnet NewClaude 3.5 Sonnet
ARC-AGI
综合评估
63.70开启思考
40.00开启思考
--
--
--
ARC-AGI-2
综合评估
13.60开启思考
5.90开启思考
--
--
--
GPQA Diamond
综合评估
83.40开启思考
83.80深度思考模式 | 工具
77.00开启思考
65.00常规模式
59.40常规模式
HLE
综合评估
33.60开启思考 | 工具
9.60开启思考
10.30开启思考
--
--
LiveBench
综合评估
68.1964K
61.2764K
--
--
--
MMLU Pro
综合评估
88.00开启思考
84.00开启思考
--
78.00常规模式
77.64常规模式
CodeClash
编程与软件工程
1389.00常规模式 | 工具
1223.00常规模式 | 工具
--
--
--
LiveCodeBench
编程与软件工程
71.00开启思考
66.00开启思考
--
38.70常规模式
--
SWE-Bench Pro - Public
编程与软件工程
43.60开启思考
42.70开启思考
--
--
--
SWE-bench Verified
编程与软件工程
82.00开启思考 | 工具
80.20开启思考 | 工具
70.30开启思考 | 工具
49.00常规模式
--
AIME2025
数学推理
100.00开启思考 | 工具
85.00深度思考模式 | 工具
54.80常规模式
--
--
FrontierMath
数学推理
5.20常规模式
4.10常规模式
4.10开启思考
2.10常规模式
1.00常规模式
其余 11 个 benchmark 仍可在上方图表中查看。

单评测历史趋势图

当前查看:ARC-AGI · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

Claude Sonnet 4.5 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

数据来源