DeepSeekMoE 16B Chat - DeepSeekMoE 16B Chat

模型详细情况和参数

DeepSeekMoE 16B Chat

模型全称
DeepSeekMoE 16B Chat
模型简称
DeepSeekMoE 16B Chat
模型类型
聊天大模型
发布日期
2024-01-11
预训练文件大小
32.77GB
是否支持中文(中文优化)
最高支持的上下文长度
4K
模型参数数量(亿)
164.0
模型代码开源协议
MIT License
预训练结果开源商用情况
DEEPSEEK LICENSE AGREEMENT - 免费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

DeepSeekMoE 16B Chat 简介

DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。

该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。


DeepSeekMoE 16B Chat是其聊天优化的版本。


评测结果如下:

指标抽样次数LLAMA2-7B SFTDeepSeek 7B ChatDeepSeekMoE 16B Chat
参数总数N/A6.7B6.9B16.4B
激活参数数N/A6.7B6.9B2.8B
每 4K 令牌的 FLOPsN/A187.9T183.5T74.4T
HellaSwag (Acc.)0-shot67.971.072.2
PIQA (Acc.)0-shot76.978.479.7
ARC-easy (Acc.)0-shot69.770.269.9
ARC-challenge (Acc.)0-shot50.850.250.0
BBH (EM)3-shot39.343.142.2
RACE-middle (Acc.)5-shot63.966.164.8
RACE-high (Acc.)5-shot49.650.850.6
DROP (EM)1-shot40.041.733.8
GSM8K (EM)0-shot63.462.662.2
MATH (EM)4-shot13.514.715.2
HumanEval (Pass@1)0-shot35.445.145.7
MBPP (Pass@1)3-shot27.839.046.2
TriviaQA (EM)5-shot60.159.563.3
NaturalQuestions (EM)0-shot35.232.735.1
MMLLU (Acc.)0-shot50.049.747.2
WinoGrande (Acc.)0-shot65.168.469.0
CLUE-WSC (EM)5-shot48.466.268.2
CEval (Acc.)0-shot35.144.740.0
CMMLU (Acc.)0-shot36.951.249.3



详细介绍参考: https://www.datalearner.com/blog/1051704952803167 


该模型免费商用授权。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

DeepSeekMoE 16B Chat所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

DeepSeekMoE 16B Chat相关的任务
问答系统

问答系统

Question Answering

35个资源