DeepSeekMoE 16B Base
模型参数
164亿
上下文长度
4K
中文支持
支持
推理能力
DeepSeekMoE 16B Base 是由 DeepSeek-AI 发布的 AI 模型,发布时间为 2024-01-11,定位为 基础大模型,参数规模约为 164亿,上下文长度为 4K,模型文件大小约 32.77GB,采用 DEEPSEEK LICENSE AGREEMENT 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
DeepSeekMoE 16B Base
模型基本信息
推理过程
不支持
思考模式
不支持思考模式
上下文长度
4K tokens
最大输出长度
暂无数据
模型类型
基础大模型
输入/输出模态
暂无数据
发布时间
2024-01-11
模型文件大小
32.77GB
MoE架构
否
总参数 / 激活参数
164亿 / 不涉及
知识截止
暂无数据
DeepSeekMoE 16B Base
开源和体验地址
DeepSeekMoE 16B Base
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
DeepSeekMoE 16B Base
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
DeepSeekMoE 16B Base
评测结果
当前尚无可展示的评测数据。
和其他模型对比
暂时没有为该模型整理的相关对比页面。
想自定义其他组合?打开对比工具
DeepSeekMoE 16B Base
发布机构
DeepSeek-AI
查看发布机构详情 DeepSeekMoE 16B Base
模型解读
DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。
该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。
| 参数内容 | LLaMA2-7B | DeepSeek 7B Base | DeepSeek MoE 16B |
|---|---|---|---|
| 模型参数 | 70亿 | 69亿 | 164亿 |
| 每次推理参数 | 70亿 | 69亿 | 28亿 |
| 4K输入的FLOPs | 187.9T | 183.5T | 74.4T |
| 训练数据集大小 | 2万亿tokens | 2万亿tokens | 2万亿tokens |
| MMLU 评分(文本理解) | 45.8 | 48.2 | 45 |
| CMMLU 评分(中文文本理解) | 14.6 | 47.2 | 42.5 |
| GSM8K评分(数学推理) | 15.5 | 17.4 | 18.8 |
| HumanEval评分(代码) | 14.6 | 26.2 | 26.8 |
| MBPP评分(代码) | 21.8 | 39.5 | 39.2 |
详细介绍参考: https://www.datalearner.com/blog/1051704952803167
该模型免费商用授权。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
