DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Claude Sonnet 4.5
CL

Claude Sonnet 4.5

Claude Sonnet 4.5

发布时间: 2025-09-30更新于: 2025-10-19 12:28:122,957
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
1000K
中文支持
支持
推理能力

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Claude Sonnet 4.5

模型基本信息

推理过程
支持
思考模式
不支持思考模式
上下文长度
1000K tokens
最大输出长度
65536 tokens
模型类型
聊天大模型
发布时间
2025-09-30
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
0.0 亿 / 不涉及
知识截止
暂无数据
Claude Sonnet 4.5

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://claude.ai/
Claude Sonnet 4.5

官方介绍与博客

官方论文
Introducing Claude Sonnet 4.5
DataLearnerAI博客
全球最强编程大模型升级:Anthropic发布Claude Sonnet 4.5!同时还有一波重磅工具更新:Claude Code支持保存状态等
Claude Sonnet 4.5

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$3$15
缓存计费Cache
模态输入 Cache输出 Cache
文本$3.75$0.3
超上下文计费Extended
模态输入输出
文本$6$22.5
Claude Sonnet 4.5

评测结果

思考模式
全部常规思考
工具使用
全部使用工具不使用工具
并行模式
排除并行全部并行模式

综合评估

共 11 项评测
评测名称 / 模式
得分
排名/总数
MMLU Pro
中
88
4 / 114
GPQA Diamond
关闭
73.70
81 / 160
GPQA Diamond
中
83.40
42 / 160
LiveBench
关闭
70.56
19 / 51
LiveBench
中
78.26
4 / 51
ARC-AGI
关闭
25.50
39 / 49
ARC-AGI
中
63.70
20 / 49
HLE
关闭
7.10
101 / 114
HLE
中
17.70
72 / 114
ARC-AGI-2
关闭
3.80
34 / 41
ARC-AGI-2
中
13.60
23 / 41

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
关闭
59
60 / 106
LiveCodeBench
中
71
35 / 106
SWE-Bench Pro - Public
中
43.60
12 / 19

数学推理

共 6 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
关闭
37
98 / 107
AIME2025
中
87
45 / 107
IMO-ProofBench
中
27.10
8 / 16
FrontierMath
关闭
5.20
33 / 55
IMO-ProofBench Advanced
中
4.80
6 / 8
FrontierMath - Tier 4
关闭
2.10
20 / 34

多模态理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
MMMU
中
77.80
14 / 27

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
关闭
54.30
9 / 27

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
中
39
10 / 15

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
中
66
6 / 11
查看评测深度分析与其他模型对比
Claude Sonnet 4.5

发布机构

Anthropic
Anthropic
查看发布机构详情
Claude Sonnet 4.5

模型解读

Anthropic于2025年9月29日正式发布了Claude Sonnet 4.5,这款模型被定位为公司迄今为止最强大的前沿模型之一。 作为Claude系列的最新迭代,Sonnet 4.5在编码、复杂代理构建以及计算机使用等方面展现出显著提升,标志着AI工具在实际生产环境中的进一步成熟。该模型的推出恰逢9月30日左右的全球AI社区热议期,迅速引发了开发者与企业的广泛关注。

核心特性与能力概述

Claude Sonnet 4.5的核心卖点在于其多模态处理能力和长时任务执行。不同于传统AI模型的短时交互,该模型能够自主运行超过30小时,同时保持对复杂、多步骤任务的专注。 它支持工具集成,如应用程序、电子表格和软件操作,这使得其在实际工作流中更具实用性。此外,Sonnet 4.5在金融、法律、医学和STEM(科学、技术、工程、数学)领域的专业知识与推理能力上表现出色,能够处理高度领域特定的挑战。

从应用角度看,该模型特别适用于构建复杂代理系统,例如自动化软件开发或多阶段决策流程。Anthropic强调,Sonnet 4.5不仅是编码领域的佼佼者,还在数学推理和问题求解上实现了实质性进步。 这些特性使其成为企业级AI部署的理想选择,尤其是在需要高可靠性和长续航的场景中。

性能基准与实证数据

Anthropic通过多项行业标准基准测试验证了Sonnet 4.5的实力。在SWE-bench Verified测试中,该模型在无额外计算的情况下达到了77.2%的得分,而在高计算配置下则提升至82.0%。 在OSWorld基准上,Sonnet 4.5的得分达61.4%,较前代Sonnet 4的42.2%大幅跃升。 其他评估包括Terminal-Bench、τ2-bench、AIME和MMMLU等,均显示出在推理、数学和多语言处理方面的领先优势。

这些数据并非孤立数字,而是基于严格的实验设置得出的,例如使用采样温度为1.0的AIME测试或多轮平均的MMMLU评估。 第三方观察显示,Sonnet 4.5在漏洞发现、代码分析和软件工程任务中表现出“显著改进”,特别是在生物风险评估领域。 总体而言,这些基准结果确立了其在AI前沿模型中的领先地位。

与前代模型的比较

相较于Claude 3.5 Sonnet,Sonnet 4.5在编码和代理构建上实现了“实质性提升”,而非渐进式改进。 例如,在OSWorld测试中的得分翻倍,反映出模型在操作系统交互和长时任务管理上的优化。同时,与Claude Opus 4.1相比,Sonnet 4.5在领域特定推理(如金融代理任务)上表现出更强的知识深度。 Anthropic将其描述为Sonnet 4的“无缝替换”,性能提升显著,但保持了相似的接口兼容性,便于现有用户迁移。

尽管如此,一些用户反馈指出,在某些主观任务中,Sonnet 4.5的改进可能不如Opus系列明显。 这提醒我们,模型选择仍需根据具体用例进行评估。

安全与合规措施

安全一直是Anthropic的核心关注点,Sonnet 4.5被归类为AI安全水平3(ASL-3),配备了针对化学、生物、放射和核(CBRN)武器的分类器,以检测潜在危险输入/输出。 与前代相比,该模型在对齐性上大幅进步,减少了奉承、欺骗和有害提示遵守等行为。 首次引入的机制解释技术进一步提升了透明度,帮助识别潜在风险。

然而,分类器仍可能产生假阳性,导致正常对话中断——Anthropic已将假阳性率降低至前代的1/10,并承诺持续优化。 对于网络安全和生物研究领域的客户,Anthropic提供白名单机制,以平衡安全与可用性。

可用性与定价

Claude Sonnet 4.5已全面上线,包括Claude API、Claude应用、Claude Code和Chrome扩展。 开发者可通过Claude Agent SDK快速构建代理系统。此外,它已集成至Amazon Bedrock服务,进一步扩展了企业级访问渠道。

定价维持与Sonnet 4一致:输入令牌每百万3美元,输出令牌每百万15美元。 这使得其在成本效益上保持竞争力,尤其适合高强度编码任务。

结语:AI生产的下一个里程碑

Claude Sonnet 4.5的发布强化了Anthropic在AI安全与实用性平衡上的领导地位。 虽然模型仍面临长上下文配置下的推理挑战,但其在基准测试和实际应用中的表现预示着AI代理时代的加速到来。对于开发者、企业决策者和AI研究者而言,这款模型值得纳入测试范围,以评估其在特定工作负载下的潜力。未来,随着更多第三方评估的涌现,我们将看到Sonnet 4.5如何进一步塑造AI生态。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码