Cl

Claude 3.5 Sonnet New

聊天大模型

Claude 3.5 Sonnet New

发布时间: 2024-10-22 979

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
200K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

200K tokens

最长输出结果
暂无数据
模型类型

聊天大模型

发布时间

2024-10-22

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Claude 3.5 Sonnet New模型在各大评测榜单的评分

评测基准 MMLU
模式 / 类型
normal / 知识问答
评测结果

88.3

评测基准 MMLU Pro
模式 / 类型
normal / 知识问答
评测结果

78.0

评测基准 HumanEval
模式 / 类型
normal / 代码生成
评测结果

93.7

评测基准 MATH
模式 / 类型
normal / 数学推理
评测结果

78.3

评测基准 BBH
模式 / 类型
normal / 综合评估
评测结果

92.6

评测基准 GPQA Diamond
模式 / 类型
normal / 常识推理
评测结果

65.0

评测基准 SimpleQA
模式 / 类型
normal / 真实性评估
评测结果

28.4

模式 / 类型
normal / 代码生成
评测结果

49.0

评测基准 MATH-500
模式 / 类型
normal / 数学推理
评测结果

78.0

评测基准 AIME 2024
模式 / 类型
normal / 数学推理
评测结果

16.0

评测基准 LiveCodeBench
模式 / 类型
normal / 代码生成
评测结果

38.7

评测基准 Creative Writing
模式 / 类型
normal / 知识问答
评测结果

78.15

发布机构

模型介绍

Claude 3.5 Sonnet 是 Anthropic 最新发布的大规模语言模型升级版本。作为 Claude 3 模型家族的重要成员,它整合了文本处理、视觉理解、代码编写和计算机操作等多项能力。该版本不仅在原有功能基础上实现了全面提升,还新增了计算机操作能力这一重要特性。其知识库更新截止到2024年4月,使其能够处理更多最新的信息和任务。

二、本次升级的主要特点

此次升级最引人注目的是新增的计算机操作能力,这使得模型能够理解和处理图形用户界面截图,并生成相应的操作指令。这项功能让模型可以像人类用户一样操作计算机,执行从简单到复杂的各类任务。除此之外,模型的视觉理解、推理能力、代码开发效率等核心能力也都得到了显著提升,使其在处理多模态任务时表现更为出色。

主要升级点包括:

  • 新增计算机操作能力
  • 视觉理解系统升级
  • 推理能力优化
  • 代码开发效率提升

三、性能评测分析

1. 计算机操作能力评测(OSWorld)


任务类别15步限制50步限制人类基准
OS任务54.2%41.7%75.00%
办公软件7.7%17.9%71.79%
日常任务16.7%24.4%70.51%
专业任务24.5%40.8%73.47%
工作流程7.9%10.9%73.27%
整体表现14.9%22.0%72.36%


在计算机操作能力的评测中,新版本展现出了良好的基础性能,但与人类表现相比仍有较大差距。特别值得注意的是,模型在操作系统相关任务中表现最为出色,达到了人类基准的72%。然而在复杂的工作流程处理方面,模型的表现相对较弱。通过增加操作步骤限制的测试发现,模型在处理某些复杂任务时,更长的操作步骤序列能够显著提升成功率,这表明模型具备处理复杂任务的潜力,但可能需要更多的中间步骤来完成任务。

关键发现:

  • OS任务表现最佳,展现出基础操作的稳定性
  • 步骤限制的增加对复杂任务成功率影响显著
  • 工作流程类任务仍需重点改进

2. 视觉理解能力评测


视觉理解的提升也很高。在主流评测结果如下:


评测指标Claude 3.5 Sonnet(新)GPT-4Gemini 1.5 Pro
MMMU70.4%69.1%65.9%
MathVista70.7%63.8%68.1%
AI2D95.3%94.2%-
ChartQA90.8%85.7%-
DocVQA94.2%92.8%-


视觉理解能力的评测结果展示了新版本在这一领域的全面领先地位。尤其在科学图表理解和文档分析方面,模型表现出色,超过了当前市场上的主要竞品。在数学视觉理解方面,虽然相比其他领域表现略逊,但仍保持了领先优势。这些结果表明,模型在处理各类视觉信息时具备了更强的理解和分析能力,为其在实际应用中处理多模态任务奠定了坚实基础。

重要观察:

  • 全面超越主要竞争对手的性能
  • 科学图表和文档理解领域优势明显
  • 数学视觉理解仍有提升空间

3. 软件工程能力评测(SWE-bench)


模型通过率
Claude 3.5 Sonnet(新)49.0%
Claude 3.5 Haiku40.6%
Claude 3.5 Sonnet(原)33.4%
Claude 3 Opus22.2%


在软件工程能力评测中,新版本取得了显著的进步。相比原版提升了15.6个百分点,达到了49.0%的通过率,这一成绩大幅领先于其他同类模型。值得注意的是,即使是轻量级的Haiku版本也实现了40.6%的通过率,超过了早期的Opus版本,这表明模型在代码理解和生成方面的基础能力得到了实质性提升。

关键进展:

  • 整体通过率提升显著
  • 轻量版本表现优异
  • 代码理解和生成能力全面增强

4. 通用推理能力评测




测试指标Claude 3.5 Sonnet(新)GPT-4Llama 3.1
MMLU89.3%88.7%88.6%
HumanEval93.7%90.2%89.0%
DROP88.383.4-
AIME 202416.0%9.3%-




在通用推理能力评测中,新版本展现出了全面而稳定的性能优势。在MMLU测试中略微领先于GPT-4和Llama 3.1,显示出强大的知识理解和应用能力。特别是在编程评测(HumanEval)中,以93.7%的成绩大幅领先于其他模型。在高难度的AIME数学竞赛题目中,虽然整体成绩不高,但仍然显著优于其他模型,展现出较强的数学推理能力。

核心表现:

  • 基础推理能力保持领先
  • 编程任务优势明显
  • 高难度数学题表现突出

四、总体评估

本次升级使Claude 3.5 Sonnet在多个维度都实现了实质性突破。在保持原有优势的基础上,通过新增计算机操作能力,显著扩展了模型的应用场景。虽然在某些领域还有提升空间,但整体性能已经达到了业界领先水平。

优势领域

  • 视觉理解能力全面领先
  • 软件工程能力大幅提升
  • 通用推理能力稳定可靠

改进空间

  • 计算机操作能力的复杂任务处理
  • 工作流程自动化的稳定性
  • 数学视觉理解的进一步优化

这次升级不仅展示了模型性能的显著提升,也为未来AI助手的发展指明了新的方向。随着这些能力的不断完善,Claude 3.5 Sonnet有望在更多实际应用场景中发挥重要作用。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat