DeepSeekMoE 16B Base - DeepSeekMoE 16B Base

模型详细情况和参数

DeepSeekMoE 16B Base

模型全称
DeepSeekMoE 16B Base
模型简称
DeepSeekMoE 16B Base
模型类型
基础大模型
发布日期
2024-01-11
预训练文件大小
32.77GB
是否支持中文(中文优化)
最高支持的上下文长度
4K
模型参数数量(亿)
164.0
模型代码开源协议
MIT License
预训练结果开源商用情况
DEEPSEEK LICENSE AGREEMENT - 免费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

DeepSeekMoE 16B Base 简介

DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。

该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。



参数内容LLaMA2-7BDeepSeek 7B BaseDeepSeek MoE 16B
模型参数70亿69亿164亿
每次推理参数70亿69亿28亿
4K输入的FLOPs187.9T183.5T74.4T
训练数据集大小2万亿tokens2万亿tokens2万亿tokens
MMLU 评分(文本理解)45.848.245
CMMLU 评分(中文文本理解)14.647.242.5
GSM8K评分(数学推理)15.517.418.8
HumanEval评分(代码)14.626.226.8
MBPP评分(代码)21.839.539.2


详细介绍参考: https://www.datalearner.com/blog/1051704952803167 


该模型免费商用授权。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

DeepSeekMoE 16B Base所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

DeepSeekMoE 16B Base相关的任务
问答系统

问答系统

Question Answering

35个资源