DE

DeepSeekMoE 145B Chat

聊天大模型DeepSeekMoEDeepSeekMoE

DeepSeekMoE 145B Chat

发布时间: 2024-01-11更新于: 2024-01-11 14:41:10.232629
模型参数
1446亿
上下文长度
4K
中文支持
支持
推理能力

DeepSeekMoE 145B Chat 是由 DeepSeek-AI 发布的 AI 模型,发布时间为 2024-01-11,定位为 聊天大模型,参数规模约为 1446亿,上下文长度为 4K,模型文件大小约 290GB,采用 DEEPSEEK LICENSE AGREEMENT 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

DeepSeekMoE 145B Chat

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
4K tokens
最大输出长度
暂无数据
模型类型
聊天大模型
输入/输出模态
暂无数据
发布时间
2024-01-11
模型文件大小
290GB
MoE架构
总参数 / 激活参数
1446亿 / 不涉及
知识截止
暂无数据
DeepSeekMoE 145B Chat

开源和体验地址

代码开源状态
预训练权重开源
DEEPSEEK LICENSE AGREEMENT- 免费商用授权
在线体验
暂无在线体验地址
DeepSeekMoE 145B Chat

官方介绍与博客

DeepSeekMoE 145B Chat

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
DeepSeekMoE 145B Chat

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

DeepSeekMoE 145B Chat

发布机构

DeepSeekMoE 145B Chat

模型解读

DeepSeekAI还训练了一个1446亿参数规模的MoE模型,未来还会开源。这个模型的效果与700亿参数规模的模型差不多,对比结果如下:

参数内容LLaMA2-70BDeepSeek 67B BaseDeepSeek MoE 145B
模型参数700亿674亿1446亿
每次推理参数700亿674亿222亿
4K输入的FLOPs/2057.5T585.6T
训练数据集大小2万亿tokens2450亿tokens2450亿tokens
MMLU 评分(文本理解)8445.139.4
CMMLU 评分(中文文本理解)53.140.635.9
GSM8K评分(数学推理)58.411.812.2
HumanEval评分(代码)28.723.819.5
MBPP评分(代码)62.933.633.2


目前,这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模,约等于之前2万亿的1/10多一点。还在继续训练中,从评测结果看,效果比较一般。目前也没有公布预训练结果,可能需要一段时间。


详细介绍参考: https://www.datalearner.com/blog/1051704952803167 

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码