DeepSeekMoE 16B Base
DeepSeekMoE 16B Base
模型参数
164.0亿
上下文长度
4K
中文支持
支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
4K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2024-01-11
模型文件大小
32.77GB
MoE架构
否
总参数 / 激活参数
164.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
DeepSeek-AI
查看发布机构详情 模型解读
DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。
该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。
| 参数内容 | LLaMA2-7B | DeepSeek 7B Base | DeepSeek MoE 16B |
|---|---|---|---|
| 模型参数 | 70亿 | 69亿 | 164亿 |
| 每次推理参数 | 70亿 | 69亿 | 28亿 |
| 4K输入的FLOPs | 187.9T | 183.5T | 74.4T |
| 训练数据集大小 | 2万亿tokens | 2万亿tokens | 2万亿tokens |
| MMLU 评分(文本理解) | 45.8 | 48.2 | 45 |
| CMMLU 评分(中文文本理解) | 14.6 | 47.2 | 42.5 |
| GSM8K评分(数学推理) | 15.5 | 17.4 | 18.8 |
| HumanEval评分(代码) | 14.6 | 26.2 | 26.8 |
| MBPP评分(代码) | 21.8 | 39.5 | 39.2 |
详细介绍参考: https://www.datalearner.com/blog/1051704952803167
该模型免费商用授权。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
