DeepSeekAI开源国产第一个基于混合专家技术的大模型:DeepSeekMoE-16B,未来还有1450亿参数的MoE大模型

标签:#DeepSeek##DeepSeekMoE##MoE##混合专家# 时间:2024/01/11 15:04:10 作者:小木

混合专家(Mixture of Experts)是大模型一种技术,这个技术将大模型划分为不同的子专家模型,每次推理只选择部分专家网络进行推理,在降低成本的同时保证模型的效果。此前Mistral开源的Mixtral-8×7B-MoE大模型被证明效果很好,推理速度很棒(参考:https://www.datalearner.com/blog/1051702307667324 )。而幻方量化旗下的DeepSeek刚刚开源了可能是国产第一个MoE技术的大模型,DeepSeek-MoE 16B。

DeepSeek MoE

从模型公布的结果看,16B的DeepSeek MoE模型推理只使用28亿参数,效果与70亿模型差不多。还有一个145B模型的MoE目前没有训练完。目前论文公布的数据看,效果不够惊艳!

[TOC]

DeepSeek MoE 16B简介

DeepSeek是中国知名私募幻方量化旗下的大模型初创企业,在2023年7月份成立。在2023年11月底开源了四个大语言模型,表现水平与LLaMA2差不多,但是中文有明显提升。

此次开源的DeepSeek MoE 16B的模型也包含两个版本,一个是基座版本的DeepSeek MoE 16B Base,另一个是在次基础上聊天优化的DeepSeek MoE 16B Chat。

DeepSeek MoE 16B模型的参数164亿,预训练大小32GB左右。DeepSeek MoE 16B模型每次推理仅仅激活其中28亿左右的参数,因此约等于30亿参数规模的大模型,但是其效果和LLaMA2-7B差不多,也就是说,以LLaMA2-7B的40%的参数获得了差不多水平的结果。同时,DeepSeekAI透露,他们正在训练有1450亿参数的MoE版本的大模型,但是每次推理仅激活190亿参数左右,但是性能与670亿参数模型效果差不多。

DeepSeek MoE 16B在2万亿tokens的数据集上进行预训练,数据集包含网络、数学、中文等,应该和此前DeepSeek LLM系列模型用的是同样的数据集。

DeepSeek MoE 16B的评测对比

DeepSeek MoE 16B模型与DeepSeekLLM 7B的对比如下:

参数内容 LLaMA2-7B DeepSeek 7B Base DeepSeek MoE 16B
模型参数 70亿 69亿 164亿
每次推理参数 70亿 69亿 28亿
4K输入的FLOPs 187.9T 183.5T 74.4T
训练数据集大小 2万亿tokens 2万亿tokens 2万亿tokens
MMLU 评分(文本理解) 45.8 48.2 45
CMMLU 评分(中文文本理解) 14.6 47.2 42.5
GSM8K评分(数学推理) 15.5 17.4 18.8
HumanEval评分(代码) 14.6 26.2 26.8
MBPP评分(代码) 21.8 39.5 39.2

从这个对比结果结果可以看到(注意,这些均是基础模型版本,不带微调的结果,微调后效果会更高),DeepSeek MoE 16B的各项评测结果与70亿参数规模的LLaMA2-7B和DeepSeek LLM 7B差不多,但是其推理成本低很多。根据官方的描述,这个模型可以在40GB显存中运行,但是推理速度是7B模型的2.5倍。

聊天优化后的结果如下:

指标 抽样次数 LLAMA2-7B SFT DeepSeek 7B Chat DeepSeekMoE 16B Chat
参数总数 N/A 6.7B 6.9B 16.4B
激活参数数 N/A 6.7B 6.9B 2.8B
每 4K 令牌的 FLOPs N/A 187.9T 183.5T 74.4T
HellaSwag (Acc.) 0-shot 67.9 71.0 72.2
PIQA (Acc.) 0-shot 76.9 78.4 79.7
ARC-easy (Acc.) 0-shot 69.7 70.2 69.9
ARC-challenge (Acc.) 0-shot 50.8 50.2 50.0
BBH (EM) 3-shot 39.3 43.1 42.2
RACE-middle (Acc.) 5-shot 63.9 66.1 64.8
RACE-high (Acc.) 5-shot 49.6 50.8 50.6
DROP (EM) 1-shot 40.0 41.7 33.8
GSM8K (EM) 0-shot 63.4 62.6 62.2
MATH (EM) 4-shot 13.5 14.7 15.2
HumanEval (Pass@1) 0-shot 35.4 45.1 45.7
MBPP (Pass@1) 3-shot 27.8 39.0 46.2
TriviaQA (EM) 5-shot 60.1 59.5 63.3
NaturalQuestions (EM) 0-shot 35.2 32.7 35.1
MMLLU (Acc.) 0-shot 50.0 49.7 47.2
WinoGrande (Acc.) 0-shot 65.1 68.4 69.0
CLUE-WSC (EM) 5-shot 48.4 66.2 68.2
CEval (Acc.) 0-shot 35.1 44.7 40.0
CMMLU (Acc.) 0-shot 36.9 51.2 49.3

也就是说,这个模型的显存要求比7B模型高很多,但是推理速度更快。

DeepSeek MoE 145B的评测对比

除了上面这个164亿规模的DeepSeek MoE模型外,DeepSeekAI还训练了一个1446亿参数规模的MoE模型,未来还会开源。这个模型的效果与700亿参数规模的模型差不多,对比结果如下:

参数内容 LLaMA2-70B DeepSeek 67B Base DeepSeek MoE 145B
模型参数 700亿 674亿 1446亿
每次推理参数 700亿 674亿 222亿
4K输入的FLOPs / 2057.5T 585.6T
训练数据集大小 2万亿tokens 2450亿tokens 2450亿tokens
MMLU 评分(文本理解) 84 45.1 39.4
CMMLU 评分(中文文本理解) 53.1 40.6 35.9
GSM8K评分(数学推理) 58.4 11.8 12.2
HumanEval评分(代码) 28.7 23.8 19.5
MBPP评分(代码) 62.9 33.6 33.2

目前,这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模,约等于之前2万亿的1/10多一点。还在继续训练中,从评测结果看,效果比较一般。目前也没有公布预训练结果,可能需要一段时间。

DeepSeek MoE 16B与Mixtral 8×7B MoE对比

这里我们也对比一下此前MistralAI开源的混合专家模型与DeepSeek混合专家模型的评测结果。

如下表所示:

基准测试 Mixtral DeepSeek MoE 16B DeepSeek MoE 145B (2450亿)
模型参数 560亿 164亿 1446亿
每次推理参数 140亿 28亿 222亿
MMLU 70.6% 45.0% 39.4%
Code (Humaneval) 40.2% 26.8% 19.5%
数学 (MATH数据集) 28.4% 4.3% 3.1%
GSM8K 74.4% 18.8% 12.2%

怎么说呢,DeepSeek MoE模型效果很一般。但是可能是16B的DeepSeek MoE模型参数太少,而145B的DeepSeek MoE模型又没有训练完成的原因。只有等后续DeepSeek MoE 145B完成之后了。

总结

按照官方的材料,目前DeepSeek MoE 16B已经训练完毕,有2个模型,分别是基座模型和聊天优化的版本。而更大更强的DeepSeek MoE 145B模型未来也会开源。这个模型应该和此前一样,都是免费商用授权的。

从目前的评测结果看,这个MoE模型的评测结果似乎不够理想,基本可以理解为显存大小比70亿参数规模高,效果差不多,唯一的优点是推理速度更快。而未来的DeepSeek 145B版本不知道会不会有类似的结论。这个结论与Mixtral-8×7B效果似乎有一点点差别。

DeepSeek目前开源的模型比较多,共6个,未来DeepSeek MoE 145B再开源2个就8个了,大家可以关注DataLearnerAI的模型信息卡:

模型名称 参数规模 类型 DataLearnerAI模型信息卡地址
DeepSeek LLM 7B Base 69亿 基座大模型 https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-base
DeepSeek LLM 7B Chat 69亿 聊天优化大模型 https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-chat
DeepSeek MoE 16B Base 164亿 混合专家基座大模型 https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Base
DeepSeek MoE 16B Chat 164亿 混合专家聊天优化大模型 https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Chat
DeepSeek LLM 67B Base 674亿 基座大模型 https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-base
DeepSeek LLM 67B Chat 674亿 聊天优化大模型 https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-chat
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送