DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogClaude Sonnet 4.5
CL

Claude Sonnet 4.5

Claude Sonnet 4.5

Release date: 2025-09-30更新于: 2025-10-19 12:28:122,955
Live demoGitHubHugging FaceCompare
Parameters
Not disclosed
Context length
1000K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Claude Sonnet 4.5

Model basics

Reasoning traces
Supported
Thinking modes
Thinking modes not supported
Context length
1000K tokens
Max output length
65536 tokens
Model type
聊天大模型
Release date
2025-09-30
Model file size
No data
MoE architecture
No
Total params / Active params
0.0B / N/A
Knowledge cutoff
No data
Claude Sonnet 4.5

Open source & experience

Code license
不开源
Weights license
不开源- 不开源
GitHub repo
GitHub link unavailable
Hugging Face
Hugging Face link unavailable
Live demo
https://claude.ai/
Claude Sonnet 4.5

Official resources

Paper
Introducing Claude Sonnet 4.5
DataLearnerAI blog
全球最强编程大模型升级:Anthropic发布Claude Sonnet 4.5!同时还有一波重磅工具更新:Claude Code支持保存状态等
Claude Sonnet 4.5

API details

API speed
3/5
💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.
Standard pricingStandard
ModalityInputOutput
Text$3$15
Cached pricingCache
ModalityInput cacheOutput cache
Text$3.75$0.3
Extended context pricingExtended
ModalityInputOutput
Text$6$22.5
Claude Sonnet 4.5

Benchmark Results

Thinking
All modesNormalThinking
Tool usage
All modesWith toolsNo tools
Parallel
Exclude parallelAll parallel modes

综合评估

5 evaluations
Benchmark / mode
Score
Rank/total
GPQA Diamond
Off
73.70
81 / 160
LiveBench
Off
70.56
19 / 51
ARC-AGI
Off
25.50
39 / 49
HLE
Off
7.10
101 / 114
ARC-AGI-2
Off
3.80
34 / 41

编程与软件工程

1 evaluations
Benchmark / mode
Score
Rank/total
LiveCodeBench
Off
59
60 / 106

数学推理

3 evaluations
Benchmark / mode
Score
Rank/total
AIME2025
Off
37
98 / 107
FrontierMath
Off
5.20
33 / 55
FrontierMath - Tier 4
Off
2.10
20 / 34

AI Agent - 工具使用

1 evaluations
Benchmark / mode
Score
Rank/total
Terminal-Bench
OffWith tools
27
25 / 35

常识推理

1 evaluations
Benchmark / mode
Score
Rank/total
Simple Bench
Off
54.30
9 / 27

Agent能力评测

1 evaluations
Benchmark / mode
Score
Rank/total
τ²-Bench
OffWith tools
71
24 / 39
查看评测深度分析与其他模型对比
Claude Sonnet 4.5

Publisher

Anthropic
Anthropic
View publisher details
Claude Sonnet 4.5

Model Overview

Anthropic于2025年9月29日正式发布了Claude Sonnet 4.5,这款模型被定位为公司迄今为止最强大的前沿模型之一。 作为Claude系列的最新迭代,Sonnet 4.5在编码、复杂代理构建以及计算机使用等方面展现出显著提升,标志着AI工具在实际生产环境中的进一步成熟。该模型的推出恰逢9月30日左右的全球AI社区热议期,迅速引发了开发者与企业的广泛关注。

核心特性与能力概述

Claude Sonnet 4.5的核心卖点在于其多模态处理能力和长时任务执行。不同于传统AI模型的短时交互,该模型能够自主运行超过30小时,同时保持对复杂、多步骤任务的专注。 它支持工具集成,如应用程序、电子表格和软件操作,这使得其在实际工作流中更具实用性。此外,Sonnet 4.5在金融、法律、医学和STEM(科学、技术、工程、数学)领域的专业知识与推理能力上表现出色,能够处理高度领域特定的挑战。

从应用角度看,该模型特别适用于构建复杂代理系统,例如自动化软件开发或多阶段决策流程。Anthropic强调,Sonnet 4.5不仅是编码领域的佼佼者,还在数学推理和问题求解上实现了实质性进步。 这些特性使其成为企业级AI部署的理想选择,尤其是在需要高可靠性和长续航的场景中。

性能基准与实证数据

Anthropic通过多项行业标准基准测试验证了Sonnet 4.5的实力。在SWE-bench Verified测试中,该模型在无额外计算的情况下达到了77.2%的得分,而在高计算配置下则提升至82.0%。 在OSWorld基准上,Sonnet 4.5的得分达61.4%,较前代Sonnet 4的42.2%大幅跃升。 其他评估包括Terminal-Bench、τ2-bench、AIME和MMMLU等,均显示出在推理、数学和多语言处理方面的领先优势。

这些数据并非孤立数字,而是基于严格的实验设置得出的,例如使用采样温度为1.0的AIME测试或多轮平均的MMMLU评估。 第三方观察显示,Sonnet 4.5在漏洞发现、代码分析和软件工程任务中表现出“显著改进”,特别是在生物风险评估领域。 总体而言,这些基准结果确立了其在AI前沿模型中的领先地位。

与前代模型的比较

相较于Claude 3.5 Sonnet,Sonnet 4.5在编码和代理构建上实现了“实质性提升”,而非渐进式改进。 例如,在OSWorld测试中的得分翻倍,反映出模型在操作系统交互和长时任务管理上的优化。同时,与Claude Opus 4.1相比,Sonnet 4.5在领域特定推理(如金融代理任务)上表现出更强的知识深度。 Anthropic将其描述为Sonnet 4的“无缝替换”,性能提升显著,但保持了相似的接口兼容性,便于现有用户迁移。

尽管如此,一些用户反馈指出,在某些主观任务中,Sonnet 4.5的改进可能不如Opus系列明显。 这提醒我们,模型选择仍需根据具体用例进行评估。

安全与合规措施

安全一直是Anthropic的核心关注点,Sonnet 4.5被归类为AI安全水平3(ASL-3),配备了针对化学、生物、放射和核(CBRN)武器的分类器,以检测潜在危险输入/输出。 与前代相比,该模型在对齐性上大幅进步,减少了奉承、欺骗和有害提示遵守等行为。 首次引入的机制解释技术进一步提升了透明度,帮助识别潜在风险。

然而,分类器仍可能产生假阳性,导致正常对话中断——Anthropic已将假阳性率降低至前代的1/10,并承诺持续优化。 对于网络安全和生物研究领域的客户,Anthropic提供白名单机制,以平衡安全与可用性。

可用性与定价

Claude Sonnet 4.5已全面上线,包括Claude API、Claude应用、Claude Code和Chrome扩展。 开发者可通过Claude Agent SDK快速构建代理系统。此外,它已集成至Amazon Bedrock服务,进一步扩展了企业级访问渠道。

定价维持与Sonnet 4一致:输入令牌每百万3美元,输出令牌每百万15美元。 这使得其在成本效益上保持竞争力,尤其适合高强度编码任务。

结语:AI生产的下一个里程碑

Claude Sonnet 4.5的发布强化了Anthropic在AI安全与实用性平衡上的领导地位。 虽然模型仍面临长上下文配置下的推理挑战,但其在基准测试和实际应用中的表现预示着AI代理时代的加速到来。对于开发者、企业决策者和AI研究者而言,这款模型值得纳入测试范围,以评估其在特定工作负载下的潜力。未来,随着更多第三方评估的涌现,我们将看到Sonnet 4.5如何进一步塑造AI生态。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码