DeepSeek-V2-MoE-236B-Chat
DeepSeek-V2-MoE-236B-Chat 是由 DeepSeek-AI 发布的 AI 模型,发布时间为 2024-05-06,定位为 聊天大模型,参数规模约为 2360.0B,上下文长度为 128K,模型文件大小约 472GB,采用 DEEPSEEK LICENSE AGREEMENT 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
幻方量化旗下大模型企业深度求索开源的全球最大规模的大语言模型,参数数量2360亿,是一个基于混合专家架构的模型,每次推理激活其中的210亿参数。
DeepSeek-V2-236B-Chat是在8.1万亿tokens数据集上训练得到,并且做过有监督微调和强化学习对齐的版本。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
