DeepSeekMoE 16B Base
不支持
4K tokens
基础大模型
2024-01-11
32.77GB
DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。
该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。
| 参数内容 | LLaMA2-7B | DeepSeek 7B Base | DeepSeek MoE 16B |
|---|---|---|---|
| 模型参数 | 70亿 | 69亿 | 164亿 |
| 每次推理参数 | 70亿 | 69亿 | 28亿 |
| 4K输入的FLOPs | 187.9T | 183.5T | 74.4T |
| 训练数据集大小 | 2万亿tokens | 2万亿tokens | 2万亿tokens |
| MMLU 评分(文本理解) | 45.8 | 48.2 | 45 |
| CMMLU 评分(中文文本理解) | 14.6 | 47.2 | 42.5 |
| GSM8K评分(数学推理) | 15.5 | 17.4 | 18.8 |
| HumanEval评分(代码) | 14.6 | 26.2 | 26.8 |
| MBPP评分(代码) | 21.8 | 39.5 | 39.2 |
详细介绍参考: https://www.datalearner.com/blog/1051704952803167
该模型免费商用授权。
关注DataLearnerAI微信公众号,接受最新大模型资讯