DeepSeekMoE 145B Chat
模型参数
1446亿
上下文长度
4K
中文支持
支持
推理能力
DeepSeekMoE 145B Chat 是由 DeepSeek-AI 发布的 AI 模型,发布时间为 2024-01-11,定位为 聊天大模型,参数规模约为 1446亿,上下文长度为 4K,模型文件大小约 290GB,采用 DEEPSEEK LICENSE AGREEMENT 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
DeepSeekMoE 145B Chat
模型基本信息
推理过程
不支持
思考模式
不支持思考模式
上下文长度
4K tokens
最大输出长度
暂无数据
模型类型
聊天大模型
输入/输出模态
暂无数据
发布时间
2024-01-11
模型文件大小
290GB
MoE架构
否
总参数 / 激活参数
1446亿 / 不涉及
知识截止
暂无数据
DeepSeekMoE 145B Chat
开源和体验地址
DeepSeekMoE 145B Chat
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
DeepSeekMoE 145B Chat
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
DeepSeekMoE 145B Chat
评测结果
当前尚无可展示的评测数据。
和其他模型对比
暂时没有为该模型整理的相关对比页面。
想自定义其他组合?打开对比工具
DeepSeekMoE 145B Chat
发布机构
DeepSeek-AI
查看发布机构详情 DeepSeekMoE 145B Chat
模型解读
DeepSeekAI还训练了一个1446亿参数规模的MoE模型,未来还会开源。这个模型的效果与700亿参数规模的模型差不多,对比结果如下:
| 参数内容 | LLaMA2-70B | DeepSeek 67B Base | DeepSeek MoE 145B |
|---|---|---|---|
| 模型参数 | 700亿 | 674亿 | 1446亿 |
| 每次推理参数 | 700亿 | 674亿 | 222亿 |
| 4K输入的FLOPs | / | 2057.5T | 585.6T |
| 训练数据集大小 | 2万亿tokens | 2450亿tokens | 2450亿tokens |
| MMLU 评分(文本理解) | 84 | 45.1 | 39.4 |
| CMMLU 评分(中文文本理解) | 53.1 | 40.6 | 35.9 |
| GSM8K评分(数学推理) | 58.4 | 11.8 | 12.2 |
| HumanEval评分(代码) | 28.7 | 23.8 | 19.5 |
| MBPP评分(代码) | 62.9 | 33.6 | 33.2 |
目前,这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模,约等于之前2万亿的1/10多一点。还在继续训练中,从评测结果看,效果比较一般。目前也没有公布预训练结果,可能需要一段时间。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
