DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

国产开源中文大语言模型再添重磅玩家:清华大学NLP实验室发布开源可商用大语言模型CPM-Bee

2023/05/31 23:07:40
3,103 阅读
CPM-Bee中文大模型国产大模型大语言模型

5月27日,OpenBMB发布了一个最高有100亿参数规模的开源大语言模型CPM-BEE,OpenBMB是清华大学NLP实验室联合智源研究院成立的一个开源组织。该模型针对高质量中文数据集做了训练优化,支持中英文。根据官方的测试结果,其英文测试水平约等于LLaMA-13B,中文评测结果优秀。

此前,国产开源大语言模型最强的应该是ChatGLM-6B(https://www.datalearner.com/ai-models/pretrained-models/ChatGLM-6B ),这也是清华大学研究成果,是清华大学KEG小组发布的,在国内外都有很好的反响,截止5月26日,ChatGLM-6B 全球下载达到200万。相比较ChatGLM-6B,CPM-Bee的主要特点如下:

  1. 开源协议更加友好,只要获取书面授权即可商用。代码、预训练结果均开源,训练过程也是全球直播。
  2. 从评测结果看,CPM-Bee模型效果也很优秀,中文ZeroCLUE评测中远超其它模型,英文多个任务评测结果也与LLaMA-13B差不多,部分任务上的表现超越GPT-3。
  3. 推理成本与ChatGLM-6B差不多,最低10亿参数规模的模型仅需要4.1GB显存可做推理,而100亿参数规模的推理仅需20GB显卡,单张消费级显卡即可。

总的来说,CPM-Bee是值得大家关注的模型,如果商用协议未来保持友好,且不断升级迭代,那也许会是一个可以和ChatGLM-6B模型竞争的一个国产替代好选择~

CPM-Bee简介

CPM全称Chinese Pretrained Model,Bee是该系列模型的第二个里程碑版本。

CPM-Bee模型是基于CPM-Ant模型继续训练得到。后者是2022年5月到9月训练的大语言模型。而CPM-Bee则是从2022年10月13日开启训练,相比之前,模型在很多任务上做了优化,包括文字填空、文本生成、问答等。

这是一个基于transformer架构的自回归模型,在高质量的中英文数据集上训练了半年左右的时间。包含4个系列的预训练结果,参数分别是10亿、20亿、50亿和100亿。CPM-Bee模型的相关信息如下:

CPM-Bee模型参数CPM-Bee模型参数结果
模型名称CPM-Bee
模型架构transformer
基础模型CPM-Ant
模型最大参数100亿
训练时间2022年10月13日-2023年3月29日
模型类型基础语言模型
训练数据集200GB高质量中文数据集+400GB多语言数据集
训练数据集tokens数1万亿

根据官方的描述,CPM-Bee的中文数据集原始数据有1TB左右,做了预处理清洗之后有200GB的高质量中文数据集结果。并加入了400GB的多语言数据集,但没有透露数据集的具体信息。

CPM-Bee训练时间230天,成本85万左右。训练的tokens数量约6380亿左右(本部分数据与GitHub介绍有冲突)。

此外,CPM-Bee的一个特点是在推理上占用的资源很小:

CPM-Bee模型版本推理的显存推荐的硬件
CPM-Bee-10B20GBRTX3090(24GB)
CPM-Bee-5B11 GBRTX 3090(24 GB)
CPM-Bee-2B6.7 GBGTX 1080(8 GB)
CPM-Bee-1B4.1 GBGTX 1660(6 GB)

可以看到,最小的10亿参数版本的模型仅需要4.1GB显存即可运行!50亿参数规模版本需要11GB显存。另一个清华大学著名的开源模型ChatGLM-6B版本的推理需要13GB显存。

CPM-Bee的效果

为了测试CPM-Bee的训练效果,官方在中英文的数据集上做了多项测试。

首先是在中文的ZeroCLUE上的测试结果。这是一个专门针对中文大语言模型的评测排行。CPM-Bee的评测得分排行第二,仅次于人类。超过了百度、阿里云等相关模型。

在英文评测上,其测试结果也超过了LLaMA-7B,与LLaMA-13B的得分相当。甚至在BooQ、ARC-c和OBQA的任务上超过了GPT-3!可以说是十分不错。

模型AverageBoolQPIQASIQAHellaSwagWinoGrandeARC-eARC-cOBQA
GPT-360.581-78.970.268.851.457.6
Gopher79.381.850.679.270.1---
Chinchilla83.781.851.380.874.9---
PaLM84.880.5-79.77775.252.550.4
LLaMA-7B66.1376.579.848.976.170.172.847.657.2
LLaMA-13B68.0878.180.150.479.27374.852.756.4
CPM-Bee67.8078.6977.5861.1178.8961.8866.8854.1863.20

CPM-Bee的开源协议

CPM-Bee作为一个完全开源的中文大语言模型,不仅测试结果很好,在开源方面也十分“大方”。

官方使用了自己的一个自定义开源协议,不过限制较为宽松。代码和模型预训练结果均开源,而模型的预训练结果的商用也只是需要获取官方书面授权即可(官方未说明是否收费)。

另一个比较有意思的是CPM-Bee模型的训练过程也是一个完全开放的过程,官方在社区上公布了完整的模型训练过程,目前最新的训练停留在2023年3月27日,loss结果0.691974,成本85万,时间230天。

除此之外,官方公布了训练过程中遭遇到的一系列问题,包括显存不足、磁盘空间不足等一系列问题,也是大家观察大模型训练最好的方法。

具体的模型信息和下载地址大家参考CPM-Bee模型的模型信息卡信息:https://www.datalearner.com/ai-models/pretrained-models/CPM-Bee

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 国产大模型进展神速!清华大学NLP小组发布顶尖多模态大模型:VisCPM,支持文本生成图片与多模态对话,图片理解能力优秀!
  • 强烈推荐!清华大学100亿参数规模的免费商用授权大模型:CPM-Bee 10B
  • DataLearnerAI发布中国国产开源大模型生态概览统计:国产开源大模型都有哪些?现状如何?
  • 目前业界支持中文大语言模型开源和商用许可协议总结
  • 复杂问题推理能力大幅提升,DeepSeekAI发布DeepSeek V3.2正式版本以及一个评测结果可以媲美Gemini 3.0 Pro的将开源模型推到极限性能的DeepSeek-V3.2-Speciale模型
  • 阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型:MMLU评测接近Llama-3-70B,略超Mixtral-8×22B!
  • 截止目前为止最大的国产开源大模型发布:元象科技开源XVERSE-65B大模型,16K上下文,免费商用
  • 国产开源大模型再添重要玩家:BAAI发布开源可商用大模型Aquila

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署