加载中...
加载中...
DeepSeek-V2-MoE-236B-Chat
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
幻方量化旗下大模型企业深度求索开源的全球最大规模的大语言模型,参数数量2360亿,是一个基于混合专家架构的模型,每次推理激活其中的210亿参数。
DeepSeek-V2-236B-Chat是在8.1万亿tokens数据集上训练得到,并且做过有监督微调和强化学习对齐的版本。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
