DeepSeekMoE 145B Chat - DeepSeekMoE 145B Chat

模型详细情况和参数

DeepSeekMoE 145B Chat

模型全称
DeepSeekMoE 145B Chat
模型简称
DeepSeekMoE 145B Chat
模型类型
聊天大模型
发布日期
2024-01-11
预训练文件大小
290GB
是否支持中文(中文优化)
最高支持的上下文长度
4K
模型参数数量(亿)
1446.0
模型代码开源协议
MIT License
预训练结果开源商用情况
DEEPSEEK LICENSE AGREEMENT - 免费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

DeepSeekMoE 145B Chat 简介

DeepSeekAI还训练了一个1446亿参数规模的MoE模型,未来还会开源。这个模型的效果与700亿参数规模的模型差不多,对比结果如下:

参数内容LLaMA2-70BDeepSeek 67B BaseDeepSeek MoE 145B
模型参数700亿674亿1446亿
每次推理参数700亿674亿222亿
4K输入的FLOPs/2057.5T585.6T
训练数据集大小2万亿tokens2450亿tokens2450亿tokens
MMLU 评分(文本理解)8445.139.4
CMMLU 评分(中文文本理解)53.140.635.9
GSM8K评分(数学推理)58.411.812.2
HumanEval评分(代码)28.723.819.5
MBPP评分(代码)62.933.633.2


目前,这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模,约等于之前2万亿的1/10多一点。还在继续训练中,从评测结果看,效果比较一般。目前也没有公布预训练结果,可能需要一段时间。


详细介绍参考: https://www.datalearner.com/blog/1051704952803167 

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

DeepSeekMoE 145B Chat所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

DeepSeekMoE 145B Chat相关的任务