DeepSeekMoE 145B Chat（DeepSeekMoE 145B Chat）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息 | DataLearnerAI

DE

DeepSeekMoE 145B Chat

DeepSeekMoE 145B Chat

发布时间: 2024-01-11更新于: 2024-01-11 14:41:10.232569

在线体验GitHub Hugging Face Compare

模型参数

1446.0亿

上下文长度

4K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型基本信息

推理过程

不支持

上下文长度

4K tokens

最大输出长度

暂无数据

模型类型

聊天大模型

发布时间

2024-01-11

模型文件大小

开源和体验地址

代码开源状态

预训练权重开源

DEEPSEEK LICENSE AGREEMENT- 免费商用授权

GitHub 源码

https://github.com/deepseek-ai/DeepSeek-MoE

Hugging Face

https://huggingface.co/deepseek-ai/deepseek-moe-16b-chat

在线体验

官方介绍与博客

官方论文

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

DeepSeek-AI

查看发布机构详情

模型解读

DeepSeekAI还训练了一个1446亿参数规模的MoE模型，未来还会开源。这个模型的效果与700亿参数规模的模型差不多，对比结果如下：

参数内容	LLaMA2-70B	DeepSeek 67B Base	DeepSeek MoE 145B
模型参数	700亿	674亿	1446亿
每次推理参数	700亿	674亿	222亿
4K输入的FLOPs	/	2057.5T	585.6T
训练数据集大小	2万亿tokens	2450亿tokens	2450亿tokens
MMLU 评分（文本理解）	84	45.1	39.4
CMMLU 评分（中文文本理解）	53.1	40.6	35.9
GSM8K评分（数学推理）	58.4	11.8	12.2
HumanEval评分（代码）	28.7	23.8	19.5
MBPP评分（代码）	62.9	33.6	33.2

目前，这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模，约等于之前2万亿的1/10多一点。还在继续训练中，从评测结果看，效果比较一般。目前也没有公布预训练结果，可能需要一段时间。

详细介绍参考： https://www.datalearner.com/blog/1051704952803167

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码