DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Home/
  2. Blog List/
  3. Blog Detail

评测结果超过GPT-4,Anthropic发布第三代大语言模型Claude3,具有多模态能力,实际评测表现优秀!

2024/03/05 23:21:28
733 views
AnthropicClaude3Claude3-OpusClaude大模型

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

Anthropic 发布 Cowork:从 Claude Code 的发展历史看 Cowork 的能力与定位,它可能成为普通人的下一代桌面 AI 助手吗?Anthropic发布Claude Haiku 4.5:一个不可忽视的低成本模型,1/3的价格,1.5倍的速度,但是有Claude Sonnet 4的水平!大模型可以运营自动售货机吗?Anthropic的Project Vend实验:Claude能成功经营一家小店吗?答案是亏损严重还会免费赠送商品!Anthropic发布Claude4,全球最强编程大模型,大幅提升AI Agent系统所需的各项能力,最长可以7小时连续工作,持续工作、工具使用、记忆使用方面大幅提升大模型的多语言能力来自哪里?大模型是否有自己的内部语言?在英文数据集上学习到的知识可以用中文表达出来吗?Anthropic的Claude 4即将发布前新功能曝光:带有Thinking模式,且可以看到推理过程Anthropic发布Claude 3.7 Sonnet大模型,全球最强编程模型再次进步。业界第一个既支持标准输出也支持扩展思考推理双重模式的单一大模型,评测结果超DeepSeek R1,低于Grok3-Beta Reasoning,免费用户可用AI Agent进展再进一步!Anthropic发布大模型上下文连接访问协议MCP:让任何资源快速变成大模型的工具,突破大模型的能力边界!Anthropic发布新一代Claude 3.5模型:全新的Haiku 3.5和升级版Sonnet 3.5Anthropic发布Claude3.5-Sonnet模型,超过Claude3系列所有模型的能力,并且支持多模态!

Hot Blogs

1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)2回归模型中的交互项简介(Interactions in Regression)3贝塔分布(Beta Distribution)简介及其应用4矩母函数简介(Moment-generating function)5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程6使用R语言进行K-means聚类并分析结果7深度学习技巧之Early Stopping(早停法)8H5文件简介和使用9手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署10Wishart分布简介

Anthropic被认为是最像OpenAI的一家公司。他们推出的Claude2模型是全球首个支持200K超长上下文的商业模型。在PDF理解方面被认为表现优秀。就在2023年3月4日,Anthropic推出了他们的第三代大语言模型Claude3,包含3个不同的版本,支持多模态和最高100万上下文输入!

  • Claude3系列模型简介
  • Claude3系列模型的评测结果
  • Claude3能更少地拒绝回答用户问题
  • Claude3系列模型不同的应用
  • Claude3当前如何使用
  • Claude3实际测试

Claude3系列模型简介

Claude3系列模型包含3个版本,分别是Claude3-Opus、Claude3-Sonnet和Claude3-Haiku,能力从高到低依次下降,成本也随之下降。尽管官方没有透露Claude3这三个版本模型的参数细节和模型架构。但是从成本和表现结果来看,参数应该是逐次递减的。

三者的区别对比如下:

| 模型名称 | 模型简介 | 模型信息卡地址 | | ------------ | ------------ | ------------ | ------------ | | Claude3-Opus | Claude3-Opus是Claude3系列中最强的模型,速度与Claude2系列接近,但是评测结果超过GPT-4 | https://www.datalearner.com/ai-models/pretrained-models/Claude3-Opus | | Claude3-Sonnet | Claude3-Sonnet是Claude3中兼具速度和性能的模型,它比Claude2快2倍,但是评测结果大幅超过Claude2 | https://www.datalearner.com/ai-models/pretrained-models/Claude3-Sonnet | | Claude3-Haiku | Claude-Haiku是Claude3系列模型中速度最快的,也是成本最低的模型。它可以在3秒内读取10K tokens的文档。 | https://www.datalearner.com/ai-models/pretrained-models/Claude3-Haiku |

从上表中可以看到,这三个模型各有特色,其中Claude3-Opus在多项评测结果中超过了GPT-4,因此也是最被大家期待的模型。

Claude3系列模型的评测结果

Claude3系列模型在各项评测结果中表现都非常好。下图是DataLearnerAI收集的关于Claude3与其它模型的对比结果,按照GSM8K排序降序。

数据来源:https://www.datalearner.com/ai-models/llm-evaluation

从这个表格中可以看到,Claude3三个模型在GSM8K上的得分都非常高。而按照MMLU排序的话,Claude3-Opus得分86.8,略超GPT-4的86.4,超过了Gemini Ultra的83.7,是目前全球的分最高的预训练模型了。

除了文本理解和数学能力外,Claude3-Opus在代码生成方面表现也非常好。在HumanEval 5-shot评测上得分84.9,超过了GPT-4,也是全球目前排名第一的模型。

数据来源:https://www.datalearner.com/ai-models/llm-coding-evaluation

Claude3能更少地拒绝回答用户问题

此前,Claude模型最被大家诟病的就是它经常拒绝回答用户问题。由于Anthropic做了过度的对齐优化,导致Claude2.1模型经常错误的拒绝回答用户问题。例如当用户问“如何杀死一个进程”这样一个计算机问题,Claude会认为这是不道德的拒绝回答。此次发布的Claude3模型,官方说它可以更加准确理解用户意图,在错误的拒绝方面表现更好。

上图是Anthropic的内部测试,结果显示,相比较Claude2.1错误拒绝概率高达26%左右,Claude3系列模型的错误拒绝概率都有较大的下降,最高的Claude3-Opus也就只有12%左右。

Claude3系列模型不同的应用

官方也给出了三个模型的不同应用场景,帮助大家如何选择模型。而这些应用场景其实也是我们在做大模型应用时候需要考虑的模型能力和成本的权衡因素。

模型名称应用场景价格
Claude3-Opus- 任务的自动化:包括交互式编程、跨API和数据库的任务规划和调用
- 科研应用:论文评述、药物发现等
- 策略:高级图表分析、财经趋势分析、预测等
90美元/100万 tokens
Claude3-Sonnet- 数据处理:利用大量知识进行RAG(检索与生成)或搜索与检索
- 销售:产品推荐、预测、目标营销
- 节省时间的任务:代码生成、质量控制、从图像解析文本
18美元/100万 tokens
Claude3-Haiku- 客户互动:在实时互动中提供快速准确的支持,翻译
- 内容审核:捕捉风险行为或客户请求
- 节省成本的任务:优化物流、库存管理、从非结构化数据中提取知识
1.5美元/100 万tokens

从上面的对比可以看到,越强大的模型,越能处理复杂的任务,价格也更贵。而相应的,目前最新的GPT-4的接口价格是40美元/100万 tokens,比Claude3-Opus还是便宜不少。gpt-3.5-turbo价格是9美元/100万tokens,因此Claude3-Haiku的价格是gpt-3.5-tubo的1/6,如果能力与gpt-3.5差不多的话,那是非常有吸引力的。

此外,这三个Claude3模型都支持最高200K的上下文输入,而官方说的是Claude3-Opus未来可以支持100万的上下文输入!另外,Claude3的模型全部是多模态大模型!支持图像理解和图像生成!

Claude3当前如何使用

目前Claude3-Opus和Claude3-Sonnet都可以通过API接口使用,因此开发者可以直接调用测试。而免费版本的Claude聊天服务也是直接上了Claude3-Sonnet,大家可以直接测试。至于最快最便宜的Claude3-Haiku,大家还需要等等。

Claude3实际测试

我们做了几组测试,Claude3-Opus模型的结果令人满意。

不过我们测试中也发现一个问题,Claude3的模型幻觉比较严重,如果没有给牛肉价格,它会自己给一个价格,这个价格其实我们没有提到。而GPT-4则会用x代替没有给出的价格。