DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页模型对比Claude Haiku 4.5与Claude 4 Sonnet和Claude Sonnet 4.5的对比

Claude Haiku 4.5与Claude 4 Sonnet和Claude Sonnet 4.5的对比

自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 3 个模型的评测数据与核心参数。

322 次浏览

Claude Haiku 4.5虽然是Claude系列模型中规模较小的版本,但是相比较前代中等参数规模的Sonnet 4完全不落下风。但是其价格和速度方面有很大的优势,主要对比结论如下:

  1. Haiku 4.5:速度与多模态的权衡者Haiku 4.5 作为最新发布的多模态模型,在性能上表现出一种“中间地带”的策略。虽然在多个基准测试中(如数学推理AIME2025、编程SWE-bench)的“thinking”模式下,其表现优于基础的Sonnet 4,但与顶级的Sonnet 4.5相比仍有差距。例如,在AIME2025数学推理上,Haiku 4.5(80.7)显著超越了Sonnet 4(70.5),但不及Sonnet 4.5(87)。这表明Haiku 4.5在保持较高推理能力的同时,可能更侧重于多模态能力和更快的响应速度,定位为系列中的高效多功能模型。
  2. Sonnet 4.5:绝对的性能领先者作为旗舰聊天大模型,Sonnet 4.5在几乎所有可比的评测基准中都全面超越了Haiku 4.5和Sonnet 4。特别是在综合评估(如ARC-AGI、HLE)和编程能力(LiveCodeBench)上,其领先优势尤为明显。此外,Sonnet 4.5拥有高达1000K的最大上下文窗口,远超前两者的200K,这使其在处理超长文本和复杂任务时具有压倒性优势。Sonnet 4.5的定位是追求极致性能和深度推理的顶级模型。
  3. Sonnet 4:坚实的“前代”基准与两个更新的模型相比,Sonnet 4虽然在多数性能指标上已经落后,但它为我们提供了一个清晰的迭代进步参照。在未使用“思考模式”的常规(normal)场景下,Sonnet 4的表现与Haiku 4.5非常接近,甚至在某些方面(如GPQA Diamond常识推理)略微占优。这说明Anthropic在模型迭代中,显著提升了模型的“深度思考”能力,使得新模型在开启类似模式后性能飞跃。
  4. “思考模式”与“工具使用”是性能的关键驱动力对比分析揭示了一个重要趋势:模型的真正潜力需要通过“思考模式(thinking/deeper_thinking)”和“使用工具”来解锁。在所有三个模型中,一旦启用这些高级模式,其在数学、编程和Agent能力等复杂任务上的得分均实现大幅跃升。例如,Haiku 4.5在AIME2025评测中,从normal模式的39分跃升至thinking模式的80.7分,再到结合工具的96.3分。这表明,模型本身的基础能力固然重要,但如何有效利用其进行深度推理和与外部工具交互,正成为衡量其应用价值的关键。

综合结论:

Haiku 4.5并非旨在全面超越Sonnet 4.5,而是Anthropic模型矩阵中的一个战略性补充。它在性能上显著优于上一代Sonnet 4,并引入了关键的多模态能力,同时可能在成本和速度上比Sonnet 4.5更具优势,为用户提供了一个介于极致性能和极致效率之间的强大选项。而Sonnet 4.5则继续巩固了其在纯文本推理和长下文处理领域的顶尖地位。这三个模型的演进清晰地展示了Anthropic在模型能力上的迭代方向:不断提升深度推理水平,并极大地依赖于高级调用模式来释放模型的全部潜能。

Anthropic

Haiku 4.5

Anthropic

发布时间
2025-10-15
上下文
200K
参数量
未提供
最大输出
65,536 tokens
支持模态
常规模式(Non-Thinking Mode) · 思考模式(Thinking Mode)
查看详情·在线体验
Anthropic

Claude Sonnet 4.5

Anthropic

发布时间
2025-09-30
上下文
1000K
参数量
未提供
最大输出
65,536 tokens
支持模态
常规模式(Non-Thinking Mode) · 思考模式(Thinking Mode) · 深度思考(Deeper Thinking Mode)
查看详情·在线体验
Anthropic

Claude Sonnet 4

Anthropic

发布时间
2025-05-23
上下文
200K
参数量
未提供
最大输出
64,000 tokens
支持模态
常规模式(Non-Thinking Mode) · 思考模式(Thinking Mode) · 深度思考(Deeper Thinking Mode)
查看详情

能力分布概览

每条轴代表一个评测领域的平均水平,并统一映射到 100 分雷达坐标。

视图: 非并行模式平均·3 个维度
Haiku 4.5

相对优势: 暂无明显优势 / 相对落后: 综合评估 -6.3

Claude Sonnet 4.5

相对优势: 编程与软件工程 +9.3 / 相对落后: 暂无明显落后

Claude Sonnet 4

相对优势: 综合评估 +0.7 / 相对落后: 编程与软件工程 -6.5

计算口径:同一模型在同一 benchmark 下先平均当前模式范围内的所有分数,不取最高分;再按评测领域对这些 benchmark 分数求平均。只纳入至少两个模型有数据的 benchmark,缺项不按 0 分处理。

综合领先

Claude Sonnet 4.5 · 35.23

单项最高

Claude Sonnet 4.5 · GPQA Diamond 73.70

模态覆盖

Haiku 4.5 · 2 种模态

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

思考模式
工具使用
联网能力
筛选: 最佳可用·3 个模式 · 8 评测基准
图表加载中...

评测得分表格

完整列出各模型/模式的评测得分,便于横向比较。

8 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项Haiku 4.5Claude Sonnet 4.5Claude Sonnet 4
ARC-AGI
综合评估
14.30常规模式
25.50常规模式
23.80常规模式
ARC-AGI-2
综合评估
1.30常规模式
3.80常规模式
1.30常规模式
GPQA Diamond
综合评估
60.50常规模式
73.70常规模式
68.00常规模式
HLE
综合评估
4.30常规模式
7.10常规模式
5.52常规模式
LiveBench
综合评估
60.42常规模式
70.56常规模式
65.40常规模式
LiveCodeBench
编程与软件工程
51.00常规模式
59.00常规模式
48.50常规模式
AIME2025
数学推理
39.00常规模式
37.00常规模式
38.00常规模式
FrontierMath
数学推理
4.10常规模式
5.20常规模式
4.10常规模式

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格
Haiku 4.5Anthropic
Claude Sonnet 4.5Anthropic
Claude Sonnet 4Anthropic
核心规格发布时间
2025-10-152025-09-302025-05-23
上下文
200K1000K200K
最大输出
655366553664000
MoE 架构
不支持不支持不支持
支持模式
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)深度思考(Deeper Thinking Mode)
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)深度思考(Deeper Thinking Mode)
开源与许可代码开源
未提供未提供未提供
权重开源
未提供未提供未提供
商业授权
不开源不开源不开源
模态支持文本 输入/输出
/
/
/
图片 输入/输出
/
/
/
音频 输入/输出
/
/
/
视频 输入/输出
/
/
/
Embedding 输入/输出
/
/
/
资料来源论文 / 报告
Introducing Claude Haiku 4.5Introducing Claude Sonnet 4.5Introducing Claude 4
DataLearner 博客
Anthropic发布Claude Haiku 4.5:一个不可忽视的低成本模型,1/3的价格,1.5倍的速度,但是有Claude Sonnet 4的水平!全球最强编程大模型升级:Anthropic发布Claude Sonnet 4.5!同时还有一波重磅工具更新:Claude Code支持保存状态等Anthropic发布Claude4,全球最强编程大模型,大幅提升AI Agent系统所需的各项能力,最长可以7小时连续工作,80%工程任务自主完成