开源大模型的新里程碑:DeepSeek AI开源6510亿参数的DeepSeek V3模型,评测结果显著好于4050亿参数的Llama3.1 405B,比肩Sonnet 3.5的开源模型
DeepSeekAI是幻方量化旗下的一家专注于AI基础技术的公司,其开源的DeepSeek系列大语言模型在开源领域一直有着很好的声誉。就在今天,DeepSeekAI开源了其第三代大模型DeepSeek V3系列,目前包含2个版本,是基于混合专家架构的大语言模型,参数总共6510亿,每次推理激活370亿参数,其评测结果几乎是当前开源大模型最强,也比肩闭源的最强模型。DeepSeekAI同时发布了技术报告,分享了DeepSeek V3模型背后的一系列技术,引起了大模型领域的广泛关注,它几乎是以1/53的API价格,获得接近Claude Sonnet 3.5的模型水平。
DeepSeek V3模型介绍
DeepSeek V3是一个十分强大的混合专家架构的大语言模型,总共包含6710亿参数,但是每次推理只会激活370亿的参数。这意味着,虽然这个模型本身显存占用和6710亿参数规模大模型差不多,但是推理的速度方面则与370亿参数规模差不多。
DeepSeek V3在14.8万亿tokens上训练,官方强调,这些数据是高质量且多样化的数据。预训练结束之后继续做了后训练(有监督微调和强化学习),来充分挖掘其潜力。
本次开源的DeepSeek V3模型不仅是免费商用的模型,也在多个技术方面做出了创新并通过技术报告的形式贡献给社区。可以说,本次开源的DeepSeek V3模型不仅其评测结果引起了众多的讨论,也在技术方面非常“慷慨”得公开了很多细节,引起了众多AI大佬的讨论。
DeepSeek V3模型有诸多技术创新
混合专家架构的大模型是大模型技术方向上非常重要的一个方案。因为混合专家模型每次推理只激活部分参数,可以降低模型推理的计算开销。由于激活的参数是最重要的参数,因此可以保持推理性能的同时,不降低推理效果。
然而,混合专家架构大模型的训练过程并不容易,例如如何均衡专家网络的负载、如何减轻训练过程的不稳定等。因此,虽然MoE模型获得了很大关注,但是最近发布的类似架构的模型却没有那么大吸引力。而本次发布的DeepSeek V3模型则再次将MoE架构推到大家面前。
简单来说,DeepSeek V3模型在模型技术架构上做了如下的创新:
首次在超大规模模型上验证FP8混合精度训练的可行性
突破了跨节点MoE训练的通信瓶颈
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
