DE

DeepSeekMoE 16B Base

基础大模型DeepSeekMoE

DeepSeekMoE 16B Base

发布时间: 2024-01-11更新于: 2024-01-11 14:40:02.873653
模型参数
164亿
上下文长度
4K
中文支持
支持
推理能力

DeepSeekMoE 16B Base 是由 DeepSeek-AI 发布的 AI 模型,发布时间为 2024-01-11,定位为 基础大模型,参数规模约为 164亿,上下文长度为 4K,模型文件大小约 32.77GB,采用 DEEPSEEK LICENSE AGREEMENT 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

DeepSeekMoE 16B Base

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
4K tokens
最大输出长度
暂无数据
模型类型
基础大模型
输入/输出模态
暂无数据
发布时间
2024-01-11
模型文件大小
32.77GB
MoE架构
总参数 / 激活参数
164亿 / 不涉及
知识截止
暂无数据
DeepSeekMoE 16B Base

开源和体验地址

代码开源状态
预训练权重开源
DEEPSEEK LICENSE AGREEMENT- 免费商用授权
在线体验
暂无在线体验地址
DeepSeekMoE 16B Base

官方介绍与博客

DataLearnerAI博客
暂无介绍博客
DeepSeekMoE 16B Base

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
DeepSeekMoE 16B Base

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

DeepSeekMoE 16B Base

发布机构

DeepSeekMoE 16B Base

模型解读

DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。

该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。



参数内容LLaMA2-7BDeepSeek 7B BaseDeepSeek MoE 16B
模型参数70亿69亿164亿
每次推理参数70亿69亿28亿
4K输入的FLOPs187.9T183.5T74.4T
训练数据集大小2万亿tokens2万亿tokens2万亿tokens
MMLU 评分(文本理解)45.848.245
CMMLU 评分(中文文本理解)14.647.242.5
GSM8K评分(数学推理)15.517.418.8
HumanEval评分(代码)14.626.226.8
MBPP评分(代码)21.839.539.2


详细介绍参考: https://www.datalearner.com/blog/1051704952803167 


该模型免费商用授权。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码