Anthropic发布Claude 3.7 Sonnet大模型,全球最强编程模型再次进步。业界第一个既支持标准输出也支持扩展思考推理双重模式的单一大模型,评测结果超DeepSeek R1,低于Grok3-Beta Reasoning,免费用户可用
2025年2月25日,Anthropic发布了Claude 3.7 Sonnet大模型,该模型是业界第一个同时支持标准输出和深度推理模式的单一大模型,各项评测相比较Claude Sonnet 3.5大幅提升。特别是代码能力进一步增强。

Claude 3.7 Sonnet大模型简介
首先,我们解释一下Claude 3.7 Sonnet奇怪的版本号。2024年3月份,Anthropic发布了第三代大语言模型,包含Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。参数规模依次增大,能力依次增强。三个月后的2024年6月份,Anthropic发布了Claude 3.5 Sonnet模型,能力大幅增强,另外两个版本没有更新。4个月后2024年的10月份,Anthropic发布了Claude 3.5 Sonnet New,相当于版本号没变,但是能力提升。同时发布了Claude 3.5 Haiku。
本次发布的Claude 3.7 Sonnet就是2024年10月之后的更新版本。可能是当时Claude 3.5 Sonnet (New)名字太过奇葩,社区很多人称为Claude 3.6 Sonnet。因此,本次发布的Claude 3.7 Sonnet应该是为了顺应社区的响应。
Claude 3.7训练的数据很新,官网给的是2024年11月份!
Claude 3.7 Sonnet是业界第一个支持双重输出模式的大模型,即既支持标准输出模式以及深度推理模式。Anthropic认为,人类从来没有因为需要深度思考的问题而长出两个脑袋,因此,一个既支持不需要思考过程的快速响应的大模型,也可以支持深度思考之后的大模型才是正确的方向。Claude 3.7 Sonnet深度推理模式被称为Claude 3.7 Sonnet with 64K extended thinking。注意,这里的64K应该是推理的长度。而官方说Claude 3.7 Sonnet最多支持128K长度的输出,这里有2种可能,一个是官方限制了推理过程最多64K,另一个是限制了模型当前的最长推理长度。
此外,Claude 3.7 Sonnet深度推理模式还有一个开发者可以控制的选项,即最多允许模型使用多长的思考长度。这个设置通过System Prompt指定,而官网的Chat网页不支持控制选项。
Claude 3.7 Sonnet推理过程公开
在这个版本中,Anthropic决定让用户可以看到Claude的推理过程。这个决定是基于多方面的考虑。但是,Anthropic说在未来的模型中可能会调整这一做法,但目前公开的几个重要的因素如下:
提升用户体验和信任:透明展示Claude的推理过程可以让用户了解结论是如何得出的,从而建立适当的信任和理解。用户通常在能够观察到思维链条时更信任输出结果。希望这种透明度可以帮助用户更好地评估Claude推理的质量和完整性,并更好地理解Claude的能力。此外,官方希望用户和开发者能够通过阅读Claude的思维输出,提供有针对性的反馈,从而创建更好的提示。
支持安全性研究:展示Claude的扩展思维过程可以为大型语言模型行为的持续研究提供帮助。这使得研究人员能够探讨为何扩展的思维链条有助于模型性能,包括对额外记忆容量、通过tokens生成的计算深度以及潜在推理路径的引导等理论进行研究。此外,扩展思维的可见性还支持对推理忠诚度的研究以及明确推理路径的潜在安全影响。展示这种扩展思维的模型为研究社区提供了一个更好地理解模型认知和决策过程的机会。
滥用的潜在风险:扩展思维的可见性增加了每次查询提供给用户的信息量,这可能带来一些风险。根据经验,允许用户查看模型的推理过程可能会使他们更容易理解如何破解模型。此外,信息的暴露可能会降低恶意行为者绕过安全防护措施的计算成本。Anthropic的使用政策(也称为“可接受使用政策”或“AUP”)详细列出了禁止的使用案例。官方定期审查和更新使用政策,以防止模型的有害使用。
虽然Anthropic选择在Claude 3.7 Sonnet中展示思维过程,但会根据持续的研究、用户反馈和不断演变的最佳实践,灵活调整未来模型中的这一做法。
Claude 3.7 Sonnet模型的性能和评测效果
Anthropic官网解释了,Claude 3.7 Sonnet在代码和前端网页开发上面提升非常大。此前,Claude 3.5 Sonnet已经几乎是业界最强的编程水平的大模型,连OpenAI自己的测试也显示Claude 3.5 Sonnet强于GPT-4o,甚至是OpenAI o1模型(参考:https://www.datalearner.com/blog/1051739972431411 )。
此次Claude 3.7 Sonnet在编程水平的进步更是值得期待。与业界其它模型相比,Claude 3.7 Sonnet各个方面都很优秀,但是并不是业界最强的。下图展示了DataLearnerAI收集的Claude 3.7 Sonnet模型与业界其它模型的对比结果:

从上图可以看到,在数学推理方面,Claude 3.7 Sonnet并不突出,比OpenAI o1、Deepseek-R1等都略低。但是差距不大。但是在常识推理和编程方面都很好。特别是编程,在SWE-Bench这种现实场景的编程方面Claude 3.7 Sonnet不使用推理模式也大幅好于其它模型(推理模式没有数据)。
官方给出的其它对比:

这让本来就很强的Claude 3.5 Sonnet系列,再次刷新人们的期待。
Anthropic发布Claude Code编程Agent系统
Claude Code是Anthropic推出的首个具备自主行动能力的编程工具,目前处于有限的研究预览阶段。
Claude Code不仅能够搜索和阅读代码、编辑文件、编写和运行测试,还能将代码提交并推送至GitHub,甚至使用命令行工具。它在每个步骤中都能与开发者保持同步,是一个全程参与的协作伙伴。虽然Claude Code仍处于早期产品阶段,但它已经成为Sonnet团队不可或缺的工具,尤其在测试驱动开发、复杂问题调试和大规模重构方面表现出色。
根据早期测试结果,Claude Code能够在一次操作中完成通常需要45分钟以上的手动工作任务,大大减少了开发时间和工作量。Sonnet计划在未来几周内根据实际使用情况持续优化Claude Code,包括提高工具调用的可靠性、增加对长时间运行命令的支持、提升应用内渲染效果,并扩展Claude对自身能力的理解。Anthropic的目标是通过Claude Code更好地了解开发者如何利用Claude进行编程,从而为未来的模型改进提供依据。加入这次预览,开发者将能体验到与Sonnet团队共同打造Claude所使用的强大工具,并且他们的反馈将直接影响Claude Code的未来发展。
Claude Code的推出标志着编程工具的重大革新,它不仅提升了开发效率,还通过自动化和智能化的方式大大简化了开发流程。尤其在测试驱动开发和复杂调试方面,Claude Code表现出的强大能力,有望在未来成为开发团队的重要助手。
程序员的工作,效率大幅提升,但也意味着被替代的可能性增加。
Claude 3.7已经对免费用户开放,API接口在AWS、Google等云服务都有提供
当前,Claude 3.7 Sonnet模型已经在官网可以使用,免费用户和付费用户都可以使用。但是免费用户不能使用深度思考模式。付费用户可以。同时,除了Anthropic官网,AWS和Google也都提供了Claude 3.7 Sonnet大模型的接口服务(AWS与Google自家大模型服务应该是不太爽的)。
此外,Claude 3.7 Sonnet模型的API接口价格和上一个版本一样,不区分是否深度推理,输入每100万tokens是3美元,输出是每100万tokens花费15美元。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
