DeepSeekMoE 16B Base（DeepSeekMoE 16B Base）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

DeepSeekMoE 16B Base - DeepSeekMoE 16B Base

模型详细情况和参数

DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型，也是目前已知的中国第一个开源的MoE大模型。

该模型参数164亿，但是单次推理只会使用28亿参数，因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。

参数内容	LLaMA2-7B	DeepSeek 7B Base	DeepSeek MoE 16B
模型参数	70亿	69亿	164亿
每次推理参数	70亿	69亿	28亿
4K输入的FLOPs	187.9T	183.5T	74.4T
训练数据集大小	2万亿tokens	2万亿tokens	2万亿tokens
MMLU 评分（文本理解）	45.8	48.2	45
CMMLU 评分（中文文本理解）	14.6	47.2	42.5
GSM8K评分（数学推理）	15.5	17.4	18.8
HumanEval评分（代码）	14.6	26.2	26.8
MBPP评分（代码）	21.8	39.5	39.2

该模型免费商用授权。

Natural Language Process

35个资源

Question Answering

35个资源