DeepSeekMoE 145B Chat
DeepSeekMoE 145B Chat
模型参数
1446.0亿
上下文长度
4K
中文支持
支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
4K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2024-01-11
模型文件大小
290GB
MoE架构
否
总参数 / 激活参数
1446.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
DeepSeek-AI
查看发布机构详情 模型解读
DeepSeekAI还训练了一个1446亿参数规模的MoE模型,未来还会开源。这个模型的效果与700亿参数规模的模型差不多,对比结果如下:
| 参数内容 | LLaMA2-70B | DeepSeek 67B Base | DeepSeek MoE 145B |
|---|---|---|---|
| 模型参数 | 700亿 | 674亿 | 1446亿 |
| 每次推理参数 | 700亿 | 674亿 | 222亿 |
| 4K输入的FLOPs | / | 2057.5T | 585.6T |
| 训练数据集大小 | 2万亿tokens | 2450亿tokens | 2450亿tokens |
| MMLU 评分(文本理解) | 84 | 45.1 | 39.4 |
| CMMLU 评分(中文文本理解) | 53.1 | 40.6 | 35.9 |
| GSM8K评分(数学推理) | 58.4 | 11.8 | 12.2 |
| HumanEval评分(代码) | 28.7 | 23.8 | 19.5 |
| MBPP评分(代码) | 62.9 | 33.6 | 33.2 |
目前,这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模,约等于之前2万亿的1/10多一点。还在继续训练中,从评测结果看,效果比较一般。目前也没有公布预训练结果,可能需要一段时间。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
