DE

DeepSeekMoE 16B Base

DeepSeekMoE 16B Base

发布时间: 2024-01-11511
模型参数
164.0亿
上下文长度
4K
中文支持
支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
4K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2024-01-11
模型文件大小
32.77GB
MoE架构
总参数 / 激活参数
164.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
预训练权重开源
DEEPSEEK LICENSE AGREEMENT- 免费商用授权
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。

该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。



参数内容LLaMA2-7BDeepSeek 7B BaseDeepSeek MoE 16B
模型参数70亿69亿164亿
每次推理参数70亿69亿28亿
4K输入的FLOPs187.9T183.5T74.4T
训练数据集大小2万亿tokens2万亿tokens2万亿tokens
MMLU 评分(文本理解)45.848.245
CMMLU 评分(中文文本理解)14.647.242.5
GSM8K评分(数学推理)15.517.418.8
HumanEval评分(代码)14.626.226.8
MBPP评分(代码)21.839.539.2


详细介绍参考: https://www.datalearner.com/blog/1051704952803167 


该模型免费商用授权。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码