加载中...

Claude Sonnet 4.5

Name: Claude Sonnet 4.5
Availability: InStock
Author: Anthropic

发布时间: 2025-09-30更新于: 2025-10-19 12:28:122,489

在线体验GitHubHugging Face

模型参数

未披露

上下文长度

1000K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型基本信息

推理过程

支持

上下文长度

1000K tokens

最大输出长度

65536 tokens

模型类型

聊天大模型

发布时间

2025-09-30

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

0.0 亿 / 不涉及

知识截止

暂无数据

推理模式

常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源- 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://claude.ai/

官方介绍与博客

官方论文

Introducing Claude Sonnet 4.5

DataLearnerAI博客

全球最强编程大模型升级：Anthropic发布Claude Sonnet 4.5！同时还有一波重磅工具更新：Claude Code支持保存状态等

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$3	$15

缓存计费Cache

模态	输入 Cache	输出 Cache
文本	$3.75	$0.3

超上下文计费Extended

模态	输入	输出
文本	$6	$22.5

评测得分

综合评估

共 11 项评测

评测名称 / 模式

得分

排名/总数

MMLU Prothinking

4 / 111

GPQA Diamondthinking

83.40

28 / 144

LiveBenchthinking

78.26

4 / 52

GPQA Diamondnormal

73.70

65 / 144

LiveBenchnormal

70.56

20 / 52

ARC-AGIthinking

63.70

10 / 38

ARC-AGInormal

25.50

28 / 38

HLEthinking

17.30

50 / 88

ARC-AGI-2thinking

13.60

10 / 27

HLEnormal

7.10

75 / 88

ARC-AGI-2normal

3.80

20 / 27

编程与软件工程

共 6 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verifiedparallel_thinking + 使用工具

1 / 78

SWE-bench Verifiedthinking + 使用工具

77.20

6 / 78

LiveCodeBenchthinking

31 / 102

SWE-bench Verifiednormal

64.80

44 / 78

LiveCodeBenchnormal

56 / 102

SWE-Bench Pro - Publicthinking

43.60

2 / 6

数学推理

共 7 项评测

评测名称 / 模式

得分

排名/总数

AIME2025thinking + 使用工具

100

1 / 104

AIME2025thinking

43 / 104

AIME2025normal

95 / 104

IMO-ProofBenchthinking

27.10

8 / 16

FrontierMathnormal

5.20

30 / 52

IMO-ProofBench Advancedthinking

4.80

6 / 8

FrontierMath - Tier 4normal

2.10

18 / 32

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

Terminal-Benchthinking + 使用工具

3 / 35

Terminal Bench 2.0thinking + 使用工具

42.80

9 / 11

Terminal-Benchnormal + 使用工具

25 / 35

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

MMMUthinking

77.80

8 / 17

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Benchnormal

54.30

9 / 27

Agent能力评测

共 4 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecomthinking + 使用工具

2 / 21

τ²-Benchthinking + 使用工具

84.70

5 / 33

τ²-Benchnormal + 使用工具

17 / 33

Terminal Bench Hardthinking + 使用工具

5 / 9

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Benchthinking + 使用工具

57.30

11 / 18

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseCompthinking + 使用工具

24.10

18 / 19

发布机构

Anthropic

查看发布机构详情

模型解读

Anthropic于2025年9月29日正式发布了Claude Sonnet 4.5，这款模型被定位为公司迄今为止最强大的前沿模型之一。作为Claude系列的最新迭代，Sonnet 4.5在编码、复杂代理构建以及计算机使用等方面展现出显著提升，标志着AI工具在实际生产环境中的进一步成熟。该模型的推出恰逢9月30日左右的全球AI社区热议期，迅速引发了开发者与企业的广泛关注。

核心特性与能力概述

Claude Sonnet 4.5的核心卖点在于其多模态处理能力和长时任务执行。不同于传统AI模型的短时交互，该模型能够自主运行超过30小时，同时保持对复杂、多步骤任务的专注。它支持工具集成，如应用程序、电子表格和软件操作，这使得其在实际工作流中更具实用性。此外，Sonnet 4.5在金融、法律、医学和STEM（科学、技术、工程、数学）领域的专业知识与推理能力上表现出色，能够处理高度领域特定的挑战。

从应用角度看，该模型特别适用于构建复杂代理系统，例如自动化软件开发或多阶段决策流程。Anthropic强调，Sonnet 4.5不仅是编码领域的佼佼者，还在数学推理和问题求解上实现了实质性进步。这些特性使其成为企业级AI部署的理想选择，尤其是在需要高可靠性和长续航的场景中。

性能基准与实证数据

Anthropic通过多项行业标准基准测试验证了Sonnet 4.5的实力。在SWE-bench Verified测试中，该模型在无额外计算的情况下达到了77.2%的得分，而在高计算配置下则提升至82.0%。在OSWorld基准上，Sonnet 4.5的得分达61.4%，较前代Sonnet 4的42.2%大幅跃升。其他评估包括Terminal-Bench、τ2-bench、AIME和MMMLU等，均显示出在推理、数学和多语言处理方面的领先优势。

这些数据并非孤立数字，而是基于严格的实验设置得出的，例如使用采样温度为1.0的AIME测试或多轮平均的MMMLU评估。第三方观察显示，Sonnet 4.5在漏洞发现、代码分析和软件工程任务中表现出“显著改进”，特别是在生物风险评估领域。总体而言，这些基准结果确立了其在AI前沿模型中的领先地位。

与前代模型的比较

相较于Claude 3.5 Sonnet，Sonnet 4.5在编码和代理构建上实现了“实质性提升”，而非渐进式改进。例如，在OSWorld测试中的得分翻倍，反映出模型在操作系统交互和长时任务管理上的优化。同时，与Claude Opus 4.1相比，Sonnet 4.5在领域特定推理（如金融代理任务）上表现出更强的知识深度。 Anthropic将其描述为Sonnet 4的“无缝替换”，性能提升显著，但保持了相似的接口兼容性，便于现有用户迁移。

尽管如此，一些用户反馈指出，在某些主观任务中，Sonnet 4.5的改进可能不如Opus系列明显。这提醒我们，模型选择仍需根据具体用例进行评估。

安全与合规措施

安全一直是Anthropic的核心关注点，Sonnet 4.5被归类为AI安全水平3（ASL-3），配备了针对化学、生物、放射和核（CBRN）武器的分类器，以检测潜在危险输入/输出。与前代相比，该模型在对齐性上大幅进步，减少了奉承、欺骗和有害提示遵守等行为。首次引入的机制解释技术进一步提升了透明度，帮助识别潜在风险。

然而，分类器仍可能产生假阳性，导致正常对话中断——Anthropic已将假阳性率降低至前代的1/10，并承诺持续优化。对于网络安全和生物研究领域的客户，Anthropic提供白名单机制，以平衡安全与可用性。

可用性与定价

Claude Sonnet 4.5已全面上线，包括Claude API、Claude应用、Claude Code和Chrome扩展。开发者可通过Claude Agent SDK快速构建代理系统。此外，它已集成至Amazon Bedrock服务，进一步扩展了企业级访问渠道。

定价维持与Sonnet 4一致：输入令牌每百万3美元，输出令牌每百万15美元。这使得其在成本效益上保持竞争力，尤其适合高强度编码任务。

结语：AI生产的下一个里程碑

Claude Sonnet 4.5的发布强化了Anthropic在AI安全与实用性平衡上的领导地位。虽然模型仍面临长上下文配置下的推理挑战，但其在基准测试和实际应用中的表现预示着AI代理时代的加速到来。对于开发者、企业决策者和AI研究者而言，这款模型值得纳入测试范围，以评估其在特定工作负载下的潜力。未来，随着更多第三方评估的涌现，我们将看到Sonnet 4.5如何进一步塑造AI生态。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

加载中...

Claude Sonnet 4.5

发布时间: 2025-09-30更新于: 2025-10-19 12:28:122,489

在线体验GitHubHugging Face

模型参数

未披露

上下文长度

1000K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型基本信息

推理过程

支持

上下文长度

1000K tokens

最大输出长度

65536 tokens

模型类型

聊天大模型

发布时间

2025-09-30

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

0.0 亿 / 不涉及

知识截止

暂无数据

推理模式

常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源- 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://claude.ai/

官方介绍与博客

官方论文

Introducing Claude Sonnet 4.5

DataLearnerAI博客

全球最强编程大模型升级：Anthropic发布Claude Sonnet 4.5！同时还有一波重磅工具更新：Claude Code支持保存状态等

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$3	$15

缓存计费Cache

模态	输入 Cache	输出 Cache
文本	$3.75	$0.3

超上下文计费Extended

模态	输入	输出
文本	$6	$22.5

评测得分

综合评估

共 11 项评测

评测名称 / 模式

得分

排名/总数

MMLU Prothinking

4 / 111

GPQA Diamondthinking

83.40

28 / 144

LiveBenchthinking

78.26

4 / 52

GPQA Diamondnormal

73.70

65 / 144

LiveBenchnormal

70.56

20 / 52

ARC-AGIthinking

63.70

10 / 38

ARC-AGInormal

25.50

28 / 38

HLEthinking

17.30

50 / 88

ARC-AGI-2thinking

13.60

10 / 27

HLEnormal

7.10

75 / 88

ARC-AGI-2normal

3.80

20 / 27

编程与软件工程

共 6 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verifiedparallel_thinking + 使用工具

1 / 78

SWE-bench Verifiedthinking + 使用工具

77.20

6 / 78

LiveCodeBenchthinking

31 / 102

SWE-bench Verifiednormal

64.80

44 / 78

LiveCodeBenchnormal

56 / 102

SWE-Bench Pro - Publicthinking

43.60

2 / 6

数学推理

共 7 项评测

评测名称 / 模式

得分

排名/总数

AIME2025thinking + 使用工具

100

1 / 104

AIME2025thinking

43 / 104

AIME2025normal

95 / 104

IMO-ProofBenchthinking

27.10

8 / 16

FrontierMathnormal

5.20

30 / 52

IMO-ProofBench Advancedthinking

4.80

6 / 8

FrontierMath - Tier 4normal

2.10

18 / 32

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

Terminal-Benchthinking + 使用工具

3 / 35

Terminal Bench 2.0thinking + 使用工具

42.80

9 / 11

Terminal-Benchnormal + 使用工具

25 / 35

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

MMMUthinking

77.80

8 / 17

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Benchnormal

54.30

9 / 27

Agent能力评测

共 4 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecomthinking + 使用工具

2 / 21

τ²-Benchthinking + 使用工具

84.70

5 / 33

τ²-Benchnormal + 使用工具

17 / 33

Terminal Bench Hardthinking + 使用工具

5 / 9

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Benchthinking + 使用工具

57.30

11 / 18

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseCompthinking + 使用工具

24.10

18 / 19

发布机构

Anthropic

查看发布机构详情

模型解读

核心特性与能力概述

性能基准与实证数据

与前代模型的比较

尽管如此，一些用户反馈指出，在某些主观任务中，Sonnet 4.5的改进可能不如Opus系列明显。这提醒我们，模型选择仍需根据具体用例进行评估。

安全与合规措施

可用性与定价

定价维持与Sonnet 4一致：输入令牌每百万3美元，输出令牌每百万15美元。这使得其在成本效益上保持竞争力，尤其适合高强度编码任务。

结语：AI生产的下一个里程碑

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送