DeepSeekMoE 16B Base
DeepSeekMoE 16B Base is an AI model published by DeepSeek-AI, released on 2024-01-11, for 基础大模型, with 164.0B parameters, and 4K tokens context length, requiring about 32.77GB storage, under the DEEPSEEK LICENSE AGREEMENT license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。
该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。
| 参数内容 | LLaMA2-7B | DeepSeek 7B Base | DeepSeek MoE 16B |
|---|---|---|---|
| 模型参数 | 70亿 | 69亿 | 164亿 |
| 每次推理参数 | 70亿 | 69亿 | 28亿 |
| 4K输入的FLOPs | 187.9T | 183.5T | 74.4T |
| 训练数据集大小 | 2万亿tokens | 2万亿tokens | 2万亿tokens |
| MMLU 评分(文本理解) | 45.8 | 48.2 | 45 |
| CMMLU 评分(中文文本理解) | 14.6 | 47.2 | 42.5 |
| GSM8K评分(数学推理) | 15.5 | 17.4 | 18.8 |
| HumanEval评分(代码) | 14.6 | 26.2 | 26.8 |
| MBPP评分(代码) | 21.8 | 39.5 | 39.2 |
详细介绍参考: https://www.datalearner.com/blog/1051704952803167
该模型免费商用授权。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
