加载中...

Claude Sonnet 4.5

Name: Claude Sonnet 4.5
Availability: InStock
Author: Anthropic

Release date: 2025-09-30更新于: 2025-10-19 12:28:122,955

Live demoGitHubHugging FaceCompare

Parameters

Not disclosed

Context length

1000K

Chinese support

Supported

Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Claude Sonnet 4.5

Model basics

Reasoning traces

Supported

Thinking modes

Thinking modes not supported

Context length

1000K tokens

Max output length

65536 tokens

Model type

聊天大模型

Release date

2025-09-30

Model file size

No data

MoE architecture

Total params / Active params

0.0B / N/A

Knowledge cutoff

No data

Claude Sonnet 4.5

Open source & experience

Code license

不开源

Weights license

不开源- 不开源

GitHub repo

GitHub link unavailable

Hugging Face

Hugging Face link unavailable

Live demo

https://claude.ai/

Claude Sonnet 4.5

Official resources

Paper

Introducing Claude Sonnet 4.5

DataLearnerAI blog

全球最强编程大模型升级：Anthropic发布Claude Sonnet 4.5！同时还有一波重磅工具更新：Claude Code支持保存状态等

Claude Sonnet 4.5

API details

API speed

3/5

💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.

Standard pricingStandard

Modality	Input	Output
Text	$3	$15

Cached pricingCache

Modality	Input cache	Output cache
Text	$3.75	$0.3

Extended context pricingExtended

Modality	Input	Output
Text	$6	$22.5

Claude Sonnet 4.5

Benchmark Results

综合评估

5 evaluations

Benchmark / mode

Score

Rank/total

GPQA Diamond

Off

73.70

81 / 160

LiveBench

Off

70.56

19 / 51

ARC-AGI

Off

25.50

39 / 49

HLE

Off

7.10

101 / 114

ARC-AGI-2

Off

3.80

34 / 41

编程与软件工程

1 evaluations

Benchmark / mode

Score

Rank/total

LiveCodeBench

Off

60 / 106

数学推理

3 evaluations

Benchmark / mode

Score

Rank/total

AIME2025

Off

98 / 107

FrontierMath

Off

5.20

33 / 55

FrontierMath - Tier 4

Off

2.10

20 / 34

AI Agent - 工具使用

1 evaluations

Benchmark / mode

Score

Rank/total

Terminal-Bench

OffWith tools

25 / 35

常识推理

1 evaluations

Benchmark / mode

Score

Rank/total

Simple Bench

Off

54.30

9 / 27

Agent能力评测

1 evaluations

Benchmark / mode

Score

Rank/total

τ²-Bench

OffWith tools

24 / 39

查看评测深度分析与其他模型对比

Claude Sonnet 4.5

Publisher

Anthropic

View publisher details

Claude Sonnet 4.5

Model Overview

Anthropic于2025年9月29日正式发布了Claude Sonnet 4.5，这款模型被定位为公司迄今为止最强大的前沿模型之一。作为Claude系列的最新迭代，Sonnet 4.5在编码、复杂代理构建以及计算机使用等方面展现出显著提升，标志着AI工具在实际生产环境中的进一步成熟。该模型的推出恰逢9月30日左右的全球AI社区热议期，迅速引发了开发者与企业的广泛关注。

核心特性与能力概述

Claude Sonnet 4.5的核心卖点在于其多模态处理能力和长时任务执行。不同于传统AI模型的短时交互，该模型能够自主运行超过30小时，同时保持对复杂、多步骤任务的专注。它支持工具集成，如应用程序、电子表格和软件操作，这使得其在实际工作流中更具实用性。此外，Sonnet 4.5在金融、法律、医学和STEM（科学、技术、工程、数学）领域的专业知识与推理能力上表现出色，能够处理高度领域特定的挑战。

从应用角度看，该模型特别适用于构建复杂代理系统，例如自动化软件开发或多阶段决策流程。Anthropic强调，Sonnet 4.5不仅是编码领域的佼佼者，还在数学推理和问题求解上实现了实质性进步。这些特性使其成为企业级AI部署的理想选择，尤其是在需要高可靠性和长续航的场景中。

性能基准与实证数据

Anthropic通过多项行业标准基准测试验证了Sonnet 4.5的实力。在SWE-bench Verified测试中，该模型在无额外计算的情况下达到了77.2%的得分，而在高计算配置下则提升至82.0%。在OSWorld基准上，Sonnet 4.5的得分达61.4%，较前代Sonnet 4的42.2%大幅跃升。其他评估包括Terminal-Bench、τ2-bench、AIME和MMMLU等，均显示出在推理、数学和多语言处理方面的领先优势。

这些数据并非孤立数字，而是基于严格的实验设置得出的，例如使用采样温度为1.0的AIME测试或多轮平均的MMMLU评估。第三方观察显示，Sonnet 4.5在漏洞发现、代码分析和软件工程任务中表现出“显著改进”，特别是在生物风险评估领域。总体而言，这些基准结果确立了其在AI前沿模型中的领先地位。

与前代模型的比较

相较于Claude 3.5 Sonnet，Sonnet 4.5在编码和代理构建上实现了“实质性提升”，而非渐进式改进。例如，在OSWorld测试中的得分翻倍，反映出模型在操作系统交互和长时任务管理上的优化。同时，与Claude Opus 4.1相比，Sonnet 4.5在领域特定推理（如金融代理任务）上表现出更强的知识深度。 Anthropic将其描述为Sonnet 4的“无缝替换”，性能提升显著，但保持了相似的接口兼容性，便于现有用户迁移。

尽管如此，一些用户反馈指出，在某些主观任务中，Sonnet 4.5的改进可能不如Opus系列明显。这提醒我们，模型选择仍需根据具体用例进行评估。

安全与合规措施

安全一直是Anthropic的核心关注点，Sonnet 4.5被归类为AI安全水平3（ASL-3），配备了针对化学、生物、放射和核（CBRN）武器的分类器，以检测潜在危险输入/输出。与前代相比，该模型在对齐性上大幅进步，减少了奉承、欺骗和有害提示遵守等行为。首次引入的机制解释技术进一步提升了透明度，帮助识别潜在风险。

然而，分类器仍可能产生假阳性，导致正常对话中断——Anthropic已将假阳性率降低至前代的1/10，并承诺持续优化。对于网络安全和生物研究领域的客户，Anthropic提供白名单机制，以平衡安全与可用性。

可用性与定价

Claude Sonnet 4.5已全面上线，包括Claude API、Claude应用、Claude Code和Chrome扩展。开发者可通过Claude Agent SDK快速构建代理系统。此外，它已集成至Amazon Bedrock服务，进一步扩展了企业级访问渠道。

定价维持与Sonnet 4一致：输入令牌每百万3美元，输出令牌每百万15美元。这使得其在成本效益上保持竞争力，尤其适合高强度编码任务。

结语：AI生产的下一个里程碑

Claude Sonnet 4.5的发布强化了Anthropic在AI安全与实用性平衡上的领导地位。虽然模型仍面临长上下文配置下的推理挑战，但其在基准测试和实际应用中的表现预示着AI代理时代的加速到来。对于开发者、企业决策者和AI研究者而言，这款模型值得纳入测试范围，以评估其在特定工作负载下的潜力。未来，随着更多第三方评估的涌现，我们将看到Sonnet 4.5如何进一步塑造AI生态。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

加载中...

Claude Sonnet 4.5

Release date: 2025-09-30更新于: 2025-10-19 12:28:122,955

Live demoGitHubHugging FaceCompare

Parameters

Not disclosed

Context length

1000K

Chinese support

Supported

Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Claude Sonnet 4.5

Model basics

Reasoning traces

Supported

Thinking modes

Thinking modes not supported

Context length

1000K tokens

Max output length

65536 tokens

Model type

聊天大模型

Release date

2025-09-30

Model file size

No data

MoE architecture

Total params / Active params

0.0B / N/A

Knowledge cutoff

No data

Claude Sonnet 4.5

Open source & experience

Code license

不开源

Weights license

不开源- 不开源

GitHub repo

GitHub link unavailable

Hugging Face

Hugging Face link unavailable

Live demo

https://claude.ai/

Claude Sonnet 4.5

Official resources

Paper

Introducing Claude Sonnet 4.5

DataLearnerAI blog

全球最强编程大模型升级：Anthropic发布Claude Sonnet 4.5！同时还有一波重磅工具更新：Claude Code支持保存状态等

Claude Sonnet 4.5

API details

API speed

3/5

💡Default unit: $/1M tokens. If vendors use other units, follow their published pricing.

Standard pricingStandard

Modality	Input	Output
Text	$3	$15

Cached pricingCache

Modality	Input cache	Output cache
Text	$3.75	$0.3

Extended context pricingExtended

Modality	Input	Output
Text	$6	$22.5

Claude Sonnet 4.5

Benchmark Results

综合评估

5 evaluations

Benchmark / mode

Score

Rank/total

GPQA Diamond

Off

73.70

81 / 160

LiveBench

Off

70.56

19 / 51

ARC-AGI

Off

25.50

39 / 49

HLE

Off

7.10

101 / 114

ARC-AGI-2

Off

3.80

34 / 41

编程与软件工程

1 evaluations

Benchmark / mode

Score

Rank/total

LiveCodeBench

Off

60 / 106

数学推理

3 evaluations

Benchmark / mode

Score

Rank/total

AIME2025

Off

98 / 107

FrontierMath

Off

5.20

33 / 55

FrontierMath - Tier 4

Off

2.10

20 / 34

AI Agent - 工具使用

1 evaluations

Benchmark / mode

Score

Rank/total

Terminal-Bench

OffWith tools

25 / 35

常识推理

1 evaluations

Benchmark / mode

Score

Rank/total

Simple Bench

Off

54.30

9 / 27

Agent能力评测

1 evaluations

Benchmark / mode

Score

Rank/total

τ²-Bench

OffWith tools

24 / 39

查看评测深度分析与其他模型对比

Claude Sonnet 4.5

Publisher

Anthropic

View publisher details

Claude Sonnet 4.5

Model Overview

核心特性与能力概述

性能基准与实证数据

与前代模型的比较

尽管如此，一些用户反馈指出，在某些主观任务中，Sonnet 4.5的改进可能不如Opus系列明显。这提醒我们，模型选择仍需根据具体用例进行评估。

安全与合规措施

可用性与定价

定价维持与Sonnet 4一致：输入令牌每百万3美元，输出令牌每百万15美元。这使得其在成本效益上保持竞争力，尤其适合高强度编码任务。

结语：AI生产的下一个里程碑

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送