DeepSeekAI开源国产第一个基于混合专家技术的大模型:DeepSeekMoE-16B,未来还有1450亿参数的MoE大模型
混合专家(Mixture of Experts)是大模型一种技术,这个技术将大模型划分为不同的子专家模型,每次推理只选择部分专家网络进行推理,在降低成本的同时保证模型的效果。此前Mistral开源的Mixtral-8×7B-MoE大模型被证明效果很好,推理速度很棒(参考:https://www.datalearner.com/blog/1051702307667324 )。而幻方量化旗下的DeepSeek刚刚开源了可能是国产第一个MoE技术的大模型,DeepSeek-MoE 16B。

从模型公布的结果看,16B的DeepSeek MoE模型推理只使用28亿参数,效果与70亿模型差不多。还有一个145B模型的MoE目前没有训练完。目前论文公布的数据看,效果不够惊艳!
DeepSeek MoE 16B简介
DeepSeek是中国知名私募幻方量化旗下的大模型初创企业,在2023年7月份成立。在2023年11月底开源了四个大语言模型,表现水平与LLaMA2差不多,但是中文有明显提升。
此次开源的DeepSeek MoE 16B的模型也包含两个版本,一个是基座版本的DeepSeek MoE 16B Base,另一个是在次基础上聊天优化的DeepSeek MoE 16B Chat。
DeepSeek MoE 16B模型的参数164亿,预训练大小32GB左右。DeepSeek MoE 16B模型每次推理仅仅激活其中28亿左右的参数,因此约等于30亿参数规模的大模型,但是其效果和LLaMA2-7B差不多,也就是说,以LLaMA2-7B的40%的参数获得了差不多水平的结果。同时,DeepSeekAI透露,他们正在训练有1450亿参数的MoE版本的大模型,但是每次推理仅激活190亿参数左右,但是性能与670亿参数模型效果差不多。
DeepSeek MoE 16B在2万亿tokens的数据集上进行预训练,数据集包含网络、数学、中文等,应该和此前DeepSeek LLM系列模型用的是同样的数据集。
DeepSeek MoE 16B的评测对比
DeepSeek MoE 16B模型与DeepSeekLLM 7B的对比如下:
参数内容 | LLaMA2-7B | DeepSeek 7B Base | DeepSeek MoE 16B |
---|---|---|---|
模型参数 | 70亿 | 69亿 | 164亿 |
每次推理参数 | 70亿 | 69亿 | 28亿 |
4K输入的FLOPs | 187.9T | 183.5T | 74.4T |
训练数据集大小 | 2万亿tokens | 2万亿tokens | 2万亿tokens |
MMLU 评分(文本理解) | 45.8 | 48.2 | 45 |
CMMLU 评分(中文文本理解) | 14.6 | 47.2 | 42.5 |
GSM8K评分(数学推理) | 15.5 | 17.4 | 18.8 |
HumanEval评分(代码) | 14.6 | 26.2 | 26.8 |
MBPP评分(代码) | 21.8 | 39.5 | 39.2 |
从这个对比结果结果可以看到(注意,这些均是基础模型版本,不带微调的结果,微调后效果会更高),DeepSeek MoE 16B的各项评测结果与70亿参数规模的LLaMA2-7B和DeepSeek LLM 7B差不多,但是其推理成本低很多。根据官方的描述,这个模型可以在40GB显存中运行,但是推理速度是7B模型的2.5倍。
聊天优化后的结果如下:
指标 | 抽样次数 | LLAMA2-7B SFT | DeepSeek 7B Chat | DeepSeekMoE 16B Chat |
---|---|---|---|---|
参数总数 | N/A | 6.7B | 6.9B | 16.4B |
激活参数数 | N/A | 6.7B | 6.9B | 2.8B |
每 4K 令牌的 FLOPs | N/A | 187.9T | 183.5T | 74.4T |
HellaSwag (Acc.) | 0-shot | 67.9 | 71.0 | 72.2 |
PIQA (Acc.) | 0-shot | 76.9 | 78.4 | 79.7 |
ARC-easy (Acc.) | 0-shot | 69.7 | 70.2 | 69.9 |
ARC-challenge (Acc.) | 0-shot | 50.8 | 50.2 | 50.0 |
BBH (EM) | 3-shot | 39.3 | 43.1 | 42.2 |
RACE-middle (Acc.) | 5-shot | 63.9 | 66.1 | 64.8 |
RACE-high (Acc.) | 5-shot | 49.6 | 50.8 | 50.6 |
DROP (EM) | 1-shot | 40.0 | 41.7 | 33.8 |
GSM8K (EM) | 0-shot | 63.4 | 62.6 | 62.2 |
MATH (EM) | 4-shot | 13.5 | 14.7 | 15.2 |
HumanEval (Pass@1) | 0-shot | 35.4 | 45.1 | 45.7 |
MBPP (Pass@1) | 3-shot | 27.8 | 39.0 | 46.2 |
TriviaQA (EM) | 5-shot | 60.1 | 59.5 | 63.3 |
NaturalQuestions (EM) | 0-shot | 35.2 | 32.7 | 35.1 |
MMLLU (Acc.) | 0-shot | 50.0 | 49.7 | 47.2 |
WinoGrande (Acc.) | 0-shot | 65.1 | 68.4 | 69.0 |
CLUE-WSC (EM) | 5-shot | 48.4 | 66.2 | 68.2 |
CEval (Acc.) | 0-shot | 35.1 | 44.7 | 40.0 |
CMMLU (Acc.) | 0-shot | 36.9 | 51.2 | 49.3 |
也就是说,这个模型的显存要求比7B模型高很多,但是推理速度更快。
DeepSeek MoE 145B的评测对比
除了上面这个164亿规模的DeepSeek MoE模型外,DeepSeekAI还训练了一个1446亿参数规模的MoE模型,未来还会开源。这个模型的效果与700亿参数规模的模型差不多,对比结果如下:
参数内容 | LLaMA2-70B | DeepSeek 67B Base | DeepSeek MoE 145B |
---|---|---|---|
模型参数 | 700亿 | 674亿 | 1446亿 |
每次推理参数 | 700亿 | 674亿 | 222亿 |
4K输入的FLOPs | / | 2057.5T | 585.6T |
训练数据集大小 | 2万亿tokens | 2450亿tokens | 2450亿tokens |
MMLU 评分(文本理解) | 84 | 45.1 | 39.4 |
CMMLU 评分(中文文本理解) | 53.1 | 40.6 | 35.9 |
GSM8K评分(数学推理) | 58.4 | 11.8 | 12.2 |
HumanEval评分(代码) | 28.7 | 23.8 | 19.5 |
MBPP评分(代码) | 62.9 | 33.6 | 33.2 |
目前,这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模,约等于之前2万亿的1/10多一点。还在继续训练中,从评测结果看,效果比较一般。目前也没有公布预训练结果,可能需要一段时间。
DeepSeek MoE 16B与Mixtral 8×7B MoE对比
这里我们也对比一下此前MistralAI开源的混合专家模型与DeepSeek混合专家模型的评测结果。
如下表所示:
基准测试 | Mixtral | DeepSeek MoE 16B | DeepSeek MoE 145B (2450亿) |
---|---|---|---|
模型参数 | 560亿 | 164亿 | 1446亿 |
每次推理参数 | 140亿 | 28亿 | 222亿 |
MMLU | 70.6% | 45.0% | 39.4% |
Code (Humaneval) | 40.2% | 26.8% | 19.5% |
数学 (MATH数据集) | 28.4% | 4.3% | 3.1% |
GSM8K | 74.4% | 18.8% | 12.2% |
怎么说呢,DeepSeek MoE模型效果很一般。但是可能是16B的DeepSeek MoE模型参数太少,而145B的DeepSeek MoE模型又没有训练完成的原因。只有等后续DeepSeek MoE 145B完成之后了。
总结
按照官方的材料,目前DeepSeek MoE 16B已经训练完毕,有2个模型,分别是基座模型和聊天优化的版本。而更大更强的DeepSeek MoE 145B模型未来也会开源。这个模型应该和此前一样,都是免费商用授权的。
从目前的评测结果看,这个MoE模型的评测结果似乎不够理想,基本可以理解为显存大小比70亿参数规模高,效果差不多,唯一的优点是推理速度更快。而未来的DeepSeek 145B版本不知道会不会有类似的结论。这个结论与Mixtral-8×7B效果似乎有一点点差别。
DeepSeek目前开源的模型比较多,共6个,未来DeepSeek MoE 145B再开源2个就8个了,大家可以关注DataLearnerAI的模型信息卡:
模型名称 | 参数规模 | 类型 | DataLearnerAI模型信息卡地址 |
---|---|---|---|
DeepSeek LLM 7B Base | 69亿 | 基座大模型 | https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-base |
DeepSeek LLM 7B Chat | 69亿 | 聊天优化大模型 | https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-chat |
DeepSeek MoE 16B Base | 164亿 | 混合专家基座大模型 | https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Base |
DeepSeek MoE 16B Chat | 164亿 | 混合专家聊天优化大模型 | https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Chat |
DeepSeek LLM 67B Base | 674亿 | 基座大模型 | https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-base |
DeepSeek LLM 67B Chat | 674亿 | 聊天优化大模型 | https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-chat |
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
