评测结果超过GPT-4，Anthropic发布第三代大语言模型Claude3，具有多模态能力，实际评测表现优秀！

Anthropic被认为是最像OpenAI的一家公司。他们推出的Claude2模型是全球首个支持200K超长上下文的商业模型。在PDF理解方面被认为表现优秀。就在2023年3月4日，Anthropic推出了他们的第三代大语言模型Claude3，包含3个不同的版本，支持多模态和最高100万上下文输入！

Claude3系列模型简介

Claude3系列模型包含3个版本，分别是Claude3-Opus、Claude3-Sonnet和Claude3-Haiku，能力从高到低依次下降，成本也随之下降。尽管官方没有透露Claude3这三个版本模型的参数细节和模型架构。但是从成本和表现结果来看，参数应该是逐次递减的。

三者的区别对比如下：

| 模型名称 | 模型简介 | 模型信息卡地址 | | ------------ | ------------ | ------------ | ------------ | | Claude3-Opus | Claude3-Opus是Claude3系列中最强的模型，速度与Claude2系列接近，但是评测结果超过GPT-4 | https://www.datalearner.com/ai-models/pretrained-models/Claude3-Opus | | Claude3-Sonnet | Claude3-Sonnet是Claude3中兼具速度和性能的模型，它比Claude2快2倍，但是评测结果大幅超过Claude2 | https://www.datalearner.com/ai-models/pretrained-models/Claude3-Sonnet | | Claude3-Haiku | Claude-Haiku是Claude3系列模型中速度最快的，也是成本最低的模型。它可以在3秒内读取10K tokens的文档。 | https://www.datalearner.com/ai-models/pretrained-models/Claude3-Haiku |

从上表中可以看到，这三个模型各有特色，其中Claude3-Opus在多项评测结果中超过了GPT-4，因此也是最被大家期待的模型。

Claude3系列模型的评测结果

Claude3系列模型在各项评测结果中表现都非常好。下图是DataLearnerAI收集的关于Claude3与其它模型的对比结果，按照GSM8K排序降序。

数据来源：https://www.datalearner.com/ai-models/llm-evaluation

从这个表格中可以看到，Claude3三个模型在GSM8K上的得分都非常高。而按照MMLU排序的话，Claude3-Opus得分86.8，略超GPT-4的86.4，超过了Gemini Ultra的83.7，是目前全球的分最高的预训练模型了。

除了文本理解和数学能力外，Claude3-Opus在代码生成方面表现也非常好。在HumanEval 5-shot评测上得分84.9，超过了GPT-4，也是全球目前排名第一的模型。

数据来源：https://www.datalearner.com/ai-models/llm-coding-evaluation

Claude3能更少地拒绝回答用户问题

此前，Claude模型最被大家诟病的就是它经常拒绝回答用户问题。由于Anthropic做了过度的对齐优化，导致Claude2.1模型经常错误的拒绝回答用户问题。例如当用户问“如何杀死一个进程”这样一个计算机问题，Claude会认为这是不道德的拒绝回答。此次发布的Claude3模型，官方说它可以更加准确理解用户意图，在错误的拒绝方面表现更好。

上图是Anthropic的内部测试，结果显示，相比较Claude2.1错误拒绝概率高达26%左右，Claude3系列模型的错误拒绝概率都有较大的下降，最高的Claude3-Opus也就只有12%左右。

Claude3系列模型不同的应用

官方也给出了三个模型的不同应用场景，帮助大家如何选择模型。而这些应用场景其实也是我们在做大模型应用时候需要考虑的模型能力和成本的权衡因素。

模型名称	应用场景	价格
Claude3-Opus	- 任务的自动化：包括交互式编程、跨API和数据库的任务规划和调用 - 科研应用：论文评述、药物发现等 - 策略：高级图表分析、财经趋势分析、预测等	90美元/100万 tokens
Claude3-Sonnet	- 数据处理：利用大量知识进行RAG（检索与生成）或搜索与检索 - 销售：产品推荐、预测、目标营销 - 节省时间的任务：代码生成、质量控制、从图像解析文本	18美元/100万 tokens
Claude3-Haiku	- 客户互动：在实时互动中提供快速准确的支持，翻译 - 内容审核：捕捉风险行为或客户请求 - 节省成本的任务：优化物流、库存管理、从非结构化数据中提取知识	1.5美元/100 万tokens

从上面的对比可以看到，越强大的模型，越能处理复杂的任务，价格也更贵。而相应的，目前最新的GPT-4的接口价格是40美元/100万 tokens，比Claude3-Opus还是便宜不少。gpt-3.5-turbo价格是9美元/100万tokens，因此Claude3-Haiku的价格是gpt-3.5-tubo的1/6，如果能力与gpt-3.5差不多的话，那是非常有吸引力的。

此外，这三个Claude3模型都支持最高200K的上下文输入，而官方说的是Claude3-Opus未来可以支持100万的上下文输入！另外，Claude3的模型全部是多模态大模型！支持图像理解和图像生成！