DeepSeekMoE 16B Base（DeepSeekMoE 16B Base）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息 | DataLearnerAI

DE

DeepSeekMoE 16B Base

DeepSeekMoE 16B Base

发布时间: 2024-01-11更新于: 2024-01-11 14:40:02.873593

在线体验GitHub Hugging Face Compare

模型参数

164.0亿

上下文长度

4K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

DeepSeekMoE 16B Base

模型基本信息

推理过程

不支持

上下文长度

4K tokens

最大输出长度

暂无数据

模型类型

基础大模型

发布时间

2024-01-11

模型文件大小

DeepSeekMoE 16B Base

开源和体验地址

代码开源状态

预训练权重开源

DEEPSEEK LICENSE AGREEMENT- 免费商用授权

GitHub 源码

https://github.com/deepseek-ai/DeepSeek-MoE

Hugging Face

https://huggingface.co/deepseek-ai/deepseek-moe-16b-base

DeepSeekMoE 16B Base

官方介绍与博客

官方论文

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

DataLearnerAI博客

暂无介绍博客

DeepSeekMoE 16B Base

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

DeepSeekMoE 16B Base

评测结果

当前尚无可展示的评测数据。

DeepSeekMoE 16B Base

发布机构

DeepSeek-AI

查看发布机构详情

DeepSeekMoE 16B Base

模型解读

DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型，也是目前已知的中国第一个开源的MoE大模型。

该模型参数164亿，但是单次推理只会使用28亿参数，因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。

参数内容	LLaMA2-7B	DeepSeek 7B Base	DeepSeek MoE 16B
模型参数	70亿	69亿	164亿
每次推理参数	70亿	69亿	28亿
4K输入的FLOPs	187.9T	183.5T	74.4T
训练数据集大小	2万亿tokens	2万亿tokens	2万亿tokens
MMLU 评分（文本理解）	45.8	48.2	45
CMMLU 评分（中文文本理解）	14.6	47.2	42.5
GSM8K评分（数学推理）	15.5	17.4	18.8
HumanEval评分（代码）	14.6	26.2	26.8
MBPP评分（代码）	21.8	39.5	39.2

详细介绍参考： https://www.datalearner.com/blog/1051704952803167

该模型免费商用授权。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码