Claude 3.5 Sonnet New

Name: Claude 3.5 Sonnet New
Author: Anthropic

聊天大模型SonnetClaude 3.5

发布时间: 2024-10-22更新于: 2024-11-27 09:06:552,009

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

200K

中文支持

支持

推理能力

Claude 3.5 Sonnet New 是由 Anthropic 发布的 AI 模型，发布时间为 2024-10-22，定位为聊天大模型，上下文长度为 200K，采用不开源许可，在 HumanEval 上取得 93.70 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Claude 3.5 Sonnet New

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

200K tokens

最大输出长度

暂无数据

模型类型

聊天大模型

输入/输出模态

暂无数据

发布时间

2024-10-22

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

Claude 3.5 Sonnet New

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

Claude 3.5 Sonnet New

官方介绍与博客

官方论文

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku

DataLearnerAI博客

Anthropic发布新一代Claude 3.5模型：全新的Haiku 3.5和升级版Sonnet 3.5

Claude 3.5 Sonnet New

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

Claude 3.5 Sonnet New

评测结果

Claude 3.5 Sonnet New 当前已收录的代表性评测结果包括 HumanEval（3 / 39，得分 93.70）、BBH（2 / 20，得分 92.60）、MMLU（18 / 65，得分 88.30）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

BBH

92.60

2 / 20

MMLU

88.30

18 / 65

MMLU Pro

69 / 126

GPQA Diamond

133 / 180

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

HumanEval

93.70

3 / 39

SWE-bench Verified

94 / 109

LiveCodeBench

38.70

102 / 120

数学推理

共 5 项评测

评测名称 / 模式

得分

排名/总数

MATH

78.30

12 / 42

MATH-500

42 / 44

AIME 2024

59 / 62

FrontierMath

2.10

47 / 60

FrontierMath - Tier 4

常规模式

72 / 80

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

28.40

24 / 45

写作和创作

共 1 项评测

评测名称 / 模式

得分

排名/总数

Creative Writing

78.15

20 / 23

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

常规模式

41.40

36 / 63

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

Aider-Polyglot

常规模式

51.60

32 / 59

查看评测深度分析与其他模型对比

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Claude 3.5 Sonnet New

发布机构

Anthropic

查看发布机构详情

Claude 3.5 Sonnet New

模型解读

Claude 3.5 Sonnet 是 Anthropic 最新发布的大规模语言模型升级版本。作为 Claude 3 模型家族的重要成员，它整合了文本处理、视觉理解、代码编写和计算机操作等多项能力。该版本不仅在原有功能基础上实现了全面提升，还新增了计算机操作能力这一重要特性。其知识库更新截止到2024年4月，使其能够处理更多最新的信息和任务。

二、本次升级的主要特点

此次升级最引人注目的是新增的计算机操作能力，这使得模型能够理解和处理图形用户界面截图，并生成相应的操作指令。这项功能让模型可以像人类用户一样操作计算机，执行从简单到复杂的各类任务。除此之外，模型的视觉理解、推理能力、代码开发效率等核心能力也都得到了显著提升，使其在处理多模态任务时表现更为出色。

主要升级点包括：

新增计算机操作能力
视觉理解系统升级
推理能力优化
代码开发效率提升

三、性能评测分析

1. 计算机操作能力评测（OSWorld）

任务类别	15步限制	50步限制	人类基准
OS任务	54.2%	41.7%	75.00%
办公软件	7.7%	17.9%	71.79%
日常任务	16.7%	24.4%	70.51%
专业任务	24.5%	40.8%	73.47%
工作流程	7.9%	10.9%	73.27%
整体表现	14.9%	22.0%	72.36%

在计算机操作能力的评测中，新版本展现出了良好的基础性能，但与人类表现相比仍有较大差距。特别值得注意的是，模型在操作系统相关任务中表现最为出色，达到了人类基准的72%。然而在复杂的工作流程处理方面，模型的表现相对较弱。通过增加操作步骤限制的测试发现，模型在处理某些复杂任务时，更长的操作步骤序列能够显著提升成功率，这表明模型具备处理复杂任务的潜力，但可能需要更多的中间步骤来完成任务。

关键发现：

OS任务表现最佳，展现出基础操作的稳定性
步骤限制的增加对复杂任务成功率影响显著
工作流程类任务仍需重点改进

2. 视觉理解能力评测

视觉理解的提升也很高。在主流评测结果如下：

评测指标	Claude 3.5 Sonnet(新)	GPT-4	Gemini 1.5 Pro
MMMU	70.4%	69.1%	65.9%
MathVista	70.7%	63.8%	68.1%
AI2D	95.3%	94.2%	-
ChartQA	90.8%	85.7%	-
DocVQA	94.2%	92.8%	-

视觉理解能力的评测结果展示了新版本在这一领域的全面领先地位。尤其在科学图表理解和文档分析方面，模型表现出色，超过了当前市场上的主要竞品。在数学视觉理解方面，虽然相比其他领域表现略逊，但仍保持了领先优势。这些结果表明，模型在处理各类视觉信息时具备了更强的理解和分析能力，为其在实际应用中处理多模态任务奠定了坚实基础。

重要观察：

全面超越主要竞争对手的性能
科学图表和文档理解领域优势明显
数学视觉理解仍有提升空间

3. 软件工程能力评测（SWE-bench）

模型	通过率
Claude 3.5 Sonnet(新)	49.0%
Claude 3.5 Haiku	40.6%
Claude 3.5 Sonnet(原)	33.4%
Claude 3 Opus	22.2%

在软件工程能力评测中，新版本取得了显著的进步。相比原版提升了15.6个百分点，达到了49.0%的通过率，这一成绩大幅领先于其他同类模型。值得注意的是，即使是轻量级的Haiku版本也实现了40.6%的通过率，超过了早期的Opus版本，这表明模型在代码理解和生成方面的基础能力得到了实质性提升。

关键进展：

整体通过率提升显著
轻量版本表现优异
代码理解和生成能力全面增强

4. 通用推理能力评测

测试指标	Claude 3.5 Sonnet(新)	GPT-4	Llama 3.1
MMLU	89.3%	88.7%	88.6%
HumanEval	93.7%	90.2%	89.0%
DROP	88.3	83.4	-
AIME 2024	16.0%	9.3%	-

在通用推理能力评测中，新版本展现出了全面而稳定的性能优势。在MMLU测试中略微领先于GPT-4和Llama 3.1，显示出强大的知识理解和应用能力。特别是在编程评测(HumanEval)中，以93.7%的成绩大幅领先于其他模型。在高难度的AIME数学竞赛题目中，虽然整体成绩不高，但仍然显著优于其他模型，展现出较强的数学推理能力。

核心表现：

基础推理能力保持领先
编程任务优势明显
高难度数学题表现突出

四、总体评估

本次升级使Claude 3.5 Sonnet在多个维度都实现了实质性突破。在保持原有优势的基础上，通过新增计算机操作能力，显著扩展了模型的应用场景。虽然在某些领域还有提升空间，但整体性能已经达到了业界领先水平。

优势领域

视觉理解能力全面领先
软件工程能力大幅提升
通用推理能力稳定可靠

改进空间

计算机操作能力的复杂任务处理
工作流程自动化的稳定性
数学视觉理解的进一步优化

这次升级不仅展示了模型性能的显著提升，也为未来AI助手的发展指明了新的方向。随着这些能力的不断完善，Claude 3.5 Sonnet有望在更多实际应用场景中发挥重要作用。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送