DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

截至目前最强的70亿参数大语言模型:开源可商用的RedPajam 7B完全版发布!

2023/06/07 23:15:35
1,257 阅读
RedPajama

RedPajama模型是TOGETHER发布的一个开源可商用的大模型。2023年6月6日,TOGETHER在官方宣布该模型完成训练,经过测试,该模型目前超过所有7B规模的大模型,比LLaMA-7B和Falcon-7B的效果还要好!

TOGETHER公司是一家由豪华管理团队组成的创业公司,由苹果公司前高管、斯坦福大学教授等一起创办。其目标是提供大型生成式模型的基础设施。

RedPajama是一个开源大模型项目,有TOGETHER联合多家公司发起。目前包括一个开源的数据集,有1.2万亿tokens,严格按照LLaMA模型论文中的方法收集。另外,还包括2个开源大模型,一个是RedPajama 3B,于5月5日宣布训练结束,可以在RTX 2070上使用。另一个模型就是本文提到的RedPajama 7B,在昨天宣布完成训练,效果超越目前所有同等规模的模型。

RedPajama 3B模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/RedPajama-INCITE-3B

一、RedPajama数据集简介

4月17日,TOGETHER发布了RedPajama项目,被大众所熟知。该项目希望建立一个开源的大语言模型,其第一步是重现LLaMA论文中提到的高质量预训练数据集。他们认为,高质量的大规模预训练数据集是大模型训练必要条件。而MetaAI开源的LLaMA模型可以理解为开源最强大模型。但是,他们仅仅开源了预训练结果,且不允许商用。而RedPajama则根据MetaAI的论文自己收集了这样的一个数据集。

因此,他们开源了1.2万亿tokens的RedPajama数据集。这是一个5TB大小的数据集,按照LLaMA论文描述的内容收集。目前已经被下载了几千次,而且用于超过100个模型的训练。

二、RedPajama 7B模型简介

4月23日,也就是RedPajama数据集发布1周后,TOGETHER宣布他们基于这个1.2万亿tokens的数据集正在训练一个叫RedPajama-7B模型,完成了40%的训练,但是效果已经超越Pythia-7B。这证明了大规模高质量预训练数据集的价值。

5月5日,RedPajama-7B模型的训练过程进行到80%,但是效果出乎意料,因此TOGETHER发布了0.1版本的RedPajama 7B,包含3个版本:基础大模型、基于chat微调的以及基于指令微调的。

| RedPajama-7B v0.1版本 | 预训练下载链接 | | ------------ | ------------ | ------------ | | RedPajama-INCITE-Base-7B-v0.1 | https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-7B-v0.1 | | RedPajama-INCITE-Chat-7B-v0.1 | https://huggingface.co/togethercomputer/RedPajama-INCITE-Chat-7B-v0.1 | | RedPajama-INCITE-Instruct-7B-v0.1 | https://huggingface.co/togethercomputer/RedPajama-INCITE-Instruct-7B-v0.1 |

这里的Base模型是基础大语言模型,采用Pythia模型一样的架构,但是基于RedPajama数据集训练,而Chat则是基于Base模型训练进行指令微调的结果(基于Dolly2和OASST微调),Chat版本模型已经可以在OpenChatKit使用。Instruct则是基于Base模型针对few-shot prompts微调的结果。在很多NLP任务中微调(来自P3和Natural Instruction)。

今天,TOGETHER宣布RedPajama 7B完成所有训练。完整版本的3个RedPajama模型全部开源:

| RedPajama-7B v1.0版本 | 预训练下载链接 | | ------------ | ------------ | ------------ | | RedPajama-INCITE-7B-Base | https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Base | | RedPajama-INCITE-Chat-7B | https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Chat | | RedPajama-INCITE-Instruct-7B | https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Instruct |

上述模型均使用Apache2.0开源协议,完全开源可商用!

三、RedPajama 7B模型的效果

TOGETHER在HELM任务上做了评估。使用的是RedPajama-INCITE-Instruct-7B,从结果看,HELM平均得分上,RedPajama 7B Instruct0.492,超过LLaMA 7B的0.472和前段时间最强开源模型Falcon 7B的0.407。

RedPajama第二代模型即将登场

除了上述RedPajama 7B模型的开源外,官方还宣布了RedPajama V2版本的消息。RedPajama 2将在2-3万亿tokens数据集上训练。主要有以下规划:

  1. 准备基于DoReMi这样的技术自动学习不同数据的混合。
  2. 引入Pile v1(来自Eleuther.ai)和Pile v2(CrperAI)等数据集,提高训练数据多样性
  3. 处理更多的CommonCrawl数据集
  4. 使用更好的数据去重复策略
  5. 引入至少1500亿tokens的代码数据集。

而根据官方的描述RedPajama 2将继续开源!

RedPajama背后的INCITE超级计算机资助

RedPajama项目背后离不开美国国家科学基金会的一个INCITE项目,它通过资助申请者的DOE超级计算机使用时间来降低大家对超大规模计算资源的使用门槛。RedPajama总共使用了3072个V100的GPU进行训练。

可以看到,超级计算机的项目资助对于促进这样的大模型训练来说很重要。目前不知道国内是否有这样的资源可以供大家申请使用。如果有,这也许也会推动国内大模型的发展!

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署