DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表DeepSeekMoE 16B Base
DE

DeepSeekMoE 16B Base

基础大模型

DeepSeekMoE 16B Base

发布时间: 2024-01-11更新于: 2024-01-11 14:40:02.873647
在线体验GitHubHugging FaceCompare
模型参数
164.0亿
上下文长度
4K
中文支持
支持
推理能力

DeepSeekMoE 16B Base 是由 DeepSeek-AI 发布的 AI 模型,发布时间为 2024-01-11,定位为 基础大模型,参数规模约为 164.0B,上下文长度为 4K,模型文件大小约 32.77GB,采用 DEEPSEEK LICENSE AGREEMENT 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

DeepSeekMoE 16B Base

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
4K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2024-01-11
模型文件大小
32.77GB
MoE架构
否
总参数 / 激活参数
164.0 亿 / 不涉及
知识截止
暂无数据
DeepSeekMoE 16B Base

开源和体验地址

代码开源状态
MIT License
预训练权重开源
DEEPSEEK LICENSE AGREEMENT- 免费商用授权
GitHub 源码
https://github.com/deepseek-ai/DeepSeek-MoE
Hugging Face
https://huggingface.co/deepseek-ai/deepseek-moe-16b-base
在线体验
暂无在线体验地址
DeepSeekMoE 16B Base

官方介绍与博客

官方论文
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
DataLearnerAI博客
暂无介绍博客
DeepSeekMoE 16B Base

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
DeepSeekMoE 16B Base

评测结果

当前尚无可展示的评测数据。
DeepSeekMoE 16B Base

发布机构

DeepSeek-AI
DeepSeek-AI
查看发布机构详情
DeepSeekMoE 16B Base

模型解读

DeepSeekMoE是幻方量化旗下大模型企业DeepSeek开源的一个混合专家大模型,也是目前已知的中国第一个开源的MoE大模型。

该模型参数164亿,但是单次推理只会使用28亿参数,因此可以理解为推理成本与30亿参数规模的大模型差不多。但是其效果和70亿参数规模的大模型等同。



参数内容LLaMA2-7BDeepSeek 7B BaseDeepSeek MoE 16B
模型参数70亿69亿164亿
每次推理参数70亿69亿28亿
4K输入的FLOPs187.9T183.5T74.4T
训练数据集大小2万亿tokens2万亿tokens2万亿tokens
MMLU 评分(文本理解)45.848.245
CMMLU 评分(中文文本理解)14.647.242.5
GSM8K评分(数学推理)15.517.418.8
HumanEval评分(代码)14.626.226.8
MBPP评分(代码)21.839.539.2


详细介绍参考: https://www.datalearner.com/blog/1051704952803167 


该模型免费商用授权。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码