DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表Claude Sonnet 4.5评测分析
Anthropic

Claude Sonnet 4.5

Anthropic
发布机构
Anthropic
模型类型
聊天大模型
参数量
—
上下文长度
1000K
最大输出
65536
发布时间
2025/9/30
论文
更新于 2026/5/14
322 次阅读
查看模型详情 →

Claude Sonnet 4.5 评测深度分析

Claude Sonnet 4.5 当前已收录的代表性评测结果包括 AIME2025(1 / 106,得分 100)、SWE-bench Verified(3 / 103,得分 82)、MMLU Pro(5 / 124,得分 88)。本页还提供与 2 个竞品模型及 4 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。

Sonnet 4.5是Anthropic一个中等能力的模型,但很多评测结果不比Opus差。

评测结果

Claude Sonnet 4.5

评测结果

思考模式
工具使用
并行模式

综合评估

共 12 项评测
评测名称 / 模式
得分
排名/总数
MMLU Pro
开启思考
88
5 / 124
GPQA Diamond
常规模式
73.70
94 / 175
GPQA Diamond
开启思考
83.40
55 / 175
LiveBench
常规模式
70.56
20 / 52
LiveBench
开启思考
78.26
4 / 52
ARC-AGI
常规模式
25.50
52 / 65
ARC-AGI
开启思考
63.70
32 / 65
HLE
常规模式
7.10
136 / 149
HLE
开启思考
17.70
103 / 149
HLE
开启思考工具
33.60
60 / 149
ARC-AGI-2
常规模式
3.80
48 / 58
ARC-AGI-2
开启思考
13.60
34 / 58

编程与软件工程

共 5 项评测
评测名称 / 模式
得分
排名/总数
SWE-bench Verified
开启思考工具
77.20
20 / 103
SWE-bench Verified
开启思考工具
82
3 / 103
LiveCodeBench
常规模式
59
69 / 118
LiveCodeBench
开启思考
71
45 / 118
SWE-Bench Pro - Public
开启思考
43.60
29 / 36

数学推理

共 8 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
常规模式
37
96 / 106
AIME2025
开启思考
87
45 / 106
AIME2025
开启思考工具
100
1 / 106
IMO-ProofBench
开启思考
27.10
8 / 16
FrontierMath
常规模式
5.20
38 / 60
IMO-ProofBench Advanced
开启思考
4.80
6 / 8
FrontierMath - Tier 4
常规模式
2.10
56 / 80
FrontierMath - Tier 4
32K
4.20
40 / 80

AI Agent - 工具使用

共 4 项评测
评测名称 / 模式
得分
排名/总数
OSWorld-Verified
开启思考工具
61.40
10 / 14
Terminal-Bench
常规模式工具
27
25 / 35
Terminal-Bench
开启思考工具
50
3 / 35
Terminal Bench 2.0
开启思考工具
42.80
38 / 43

多模态理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
MMMU
开启思考
77.80
14 / 28

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
常规模式
54.30
9 / 27

Agent能力评测

共 4 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench - Telecom
开启思考工具
98
5 / 35
τ²-Bench
常规模式工具
71
24 / 40
τ²-Bench
开启思考工具
84.70
9 / 40
Terminal Bench Hard
开启思考工具
33
8 / 13

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
开启思考工具
57.30
19 / 27

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
开启思考工具
24.10
41 / 43

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
开启思考
39
15 / 20

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
开启思考
66
8 / 13

OpenClaw智能体能力综合测评

共 2 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
开启思考工具
88.20
4 / 37
Claw Bench
开启思考工具
88.10
13 / 29
与其他模型对比

竞品对比

Claude Sonnet 4.5 与同类主流模型的评测得分对比

Claude Sonnet 4.5GPT-5.1Gemini 2.5-Pro
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。

12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项Claude Sonnet 4.5当前GPT-5.1Gemini 2.5-Pro
ARC-AGI
综合评估
63.70开启思考
72.80思考水平·高
37.00开启思考
ARC-AGI-2
综合评估
13.60开启思考
17.60思考水平·高
4.90开启思考
GPQA Diamond
综合评估
83.40开启思考
88.10开启思考
86.40开启思考
HLE
综合评估
33.60开启思考 | 工具
42.70思考水平·高 | 工具
21.60开启思考
LiveBench
综合评估
78.26开启思考
--
71.92开启思考
MMLU Pro
综合评估
88.00开启思考
--
86.00常规模式
LiveCodeBench
编程与软件工程
71.00开启思考
--
77.10常规模式
SWE-Bench Pro - Public
编程与软件工程
43.60开启思考
50.80思考水平·高
--
SWE-bench Verified
编程与软件工程
82.00开启思考 | 工具
76.30思考水平·高
67.20开启思考
AIME2025
数学推理
100.00开启思考 | 工具
94.00思考水平·高
88.00开启思考
FrontierMath
数学推理
5.20常规模式
26.70思考水平·高 | 工具
11.00常规模式
FrontierMath - Tier 4
数学推理
4.2032K
12.50思考水平·高 | 工具
2.10常规模式
其余 12 个 benchmark 仍可在上方图表中查看。

Claude Sonnet 4.5 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。

这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。

Claude Sonnet 4.5
标准输入: 3 美元/100 万tokens
标准输出: 15 美元/100 万tokens
标准价适用于 <= 200K
GPT-5.1
标准输入: 1.25 美元/100万 tokens
标准输出: 10 美元/100万 tokens
Gemini 2.5-Pro
标准输入: 1.25 美元/100 万tokens
标准输出: 10 美元/100 万tokens
标准价适用于 <= 200K
模型供应商标准输入标准输出标准价适用于
Claude Sonnet 4.5
—3 美元/100 万tokens15 美元/100 万tokens<= 200K
GPT-5.1
—1.25 美元/100万 tokens10 美元/100万 tokens—
Gemini 2.5-Pro
—1.25 美元/100 万tokens10 美元/100 万tokens<= 200K

历代版本对比

Claude Sonnet 4.5 系列各版本的评测成绩纵向对比

Claude Sonnet 4.5Claude Sonnet 4Claude Sonnet 3.7Claude 3.5 Sonnet NewClaude 3.5 Sonnet
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。

12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项Claude Sonnet 4.5当前Claude Sonnet 4Claude Sonnet 3.7Claude 3.5 Sonnet NewClaude 3.5 Sonnet
ARC-AGI
综合评估
63.70开启思考
40.00开启思考
--
--
--
ARC-AGI-2
综合评估
13.60开启思考
5.90开启思考
--
--
--
GPQA Diamond
综合评估
83.40开启思考
83.80深度思考模式 | 工具
77.00开启思考
65.00常规模式
59.40常规模式
HLE
综合评估
33.60开启思考 | 工具
9.60开启思考
10.30开启思考
--
--
LiveBench
综合评估
78.26开启思考
73.82开启思考
68.64开启思考
--
--
MMLU Pro
综合评估
88.00开启思考
84.00开启思考
--
78.00常规模式
77.64常规模式
LiveCodeBench
编程与软件工程
71.00开启思考
66.00开启思考
--
38.70常规模式
--
SWE-Bench Pro - Public
编程与软件工程
43.60开启思考
42.70开启思考
--
--
--
SWE-bench Verified
编程与软件工程
82.00开启思考 | 工具
80.20开启思考 | 工具
70.30开启思考 | 工具
49.00常规模式
--
AIME2025
数学推理
100.00开启思考 | 工具
85.00深度思考模式 | 工具
54.80常规模式
--
--
FrontierMath
数学推理
5.20常规模式
4.10常规模式
4.10开启思考
2.10常规模式
1.00常规模式
IMO-ProofBench
数学推理
27.10开启思考
27.10开启思考
--
--
--
其余 13 个 benchmark 仍可在上方图表中查看。

单评测历史趋势图

当前查看:ARC-AGI · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

Claude Sonnet 4.5 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。

这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。

Claude Sonnet 4.5
标准输入: 3 美元/100 万tokens
标准输出: 15 美元/100 万tokens
标准价适用于 <= 200K
Claude Sonnet 4
标准输入: 3 美元/ 100万tokens
标准输出: 15 美元/100万tokens
模型供应商标准输入标准输出标准价适用于
Claude Sonnet 4.5
—3 美元/100 万tokens15 美元/100 万tokens<= 200K
Claude Sonnet 4
—3 美元/ 100万tokens15 美元/100万tokens—

数据来源

anthropic.comanthropic.comartificialanalysis.aiartificialanalysis.ai