RedPajama INCITE 3B - RedPajama INCITE 3B

模型详细情况和参数

RedPajama INCITE 3B

模型全称
RedPajama INCITE 3B
模型简称
RedPajama INCITE 3B
模型类型
基础大模型
发布日期
2023-05-05
预训练文件大小
5.69GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
28.0
模型代码开源协议
预训练结果开源商用情况
-
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

RedPajama INCITE 3B 简介

RedPajama项目是TOGETHER公司发布的一项旨在复刻LLaMA的项目。RedPajama INCITE 3B是官方发布的第一批模型,30亿参数版本。


RedPajama INCITE 3B系列模型简介

RedPajama INCITE 3B模型是RedPajama系列模型中的一类模型,是一种语言模型。基于RedPajama的数据集训练,该模型包含3个版本,全部开源。

模型名称模型类型参数大小(亿)

RedPajama-INCITE-Base-3B-v1
语言模型28
RedPajama-INCITE-Chat-3B-v1Chat优化28
RedPajama-INCITE-Instruct-3B-v1指令优化28


其中Base模型是基础的语言模型,根据官方的描述,要比其它同等规模参数的模型效果更好。而Chat模型则是基于Dolly 2.0和Open Assistant数据集做微调的结果。Instruct是做了一些prompts的优化,使用GPT-JT的方式( https://www.datalearner.com/ai-models/pretrained-models/GPT-JT )做的指令优化。


本次发布的模型都属于INCITE系列,是一项合作的成果。这项工作基于:

  1. RedPajama收集的1.2万亿tokens的RedPajama数据集
  2. EleutherAI的Pythia训练代码
  3. Stanford的FlashAttention和Together、Stanford CRFM的HELM基准测试
  4. MILA、EleutherAI和LAION对INCITE计划奖项“可扩展的基础模型用于可转移的通用AI”中Summit超级计算机的计算时间(关于INCITE解释见后面内容)


RedPajama INCITE 3B系列模型的性能

RedPajama INCITE 3B模型是在8000亿tokens上训练的结果,其few-shot和zero-shot的表现都比同等规模模型效果更好。其在HELM核心场景下评测结果:


Few-Shot得分结果

模型名称类型HELM (16个核心场景平均得分)
GPT-NeoBase model0.357
Pythia-2.8BBase model0.377
RedPajama-INCITE-Base-3B-v1Base model0.406
RedPajama-INCITE-Instruct-3B-v1Instruction-tuned0.453
Llama-7BBase model0.465


可以看到,和MetaAI的LLaMA-7B的得分很接近~


Zero-Shot得分结果

模型名称Lambada_openai
(acc)
Hellaswag
(acc_norm)
Winogrande
(acc)
Piqa(acc)average
GPT-Neo0.62230.55790.57690.72190.6197
Pythia-2.8B0.64660.59330.60060.73990.6451
Pythia-2.8B-dedup0.65240.59410.58480.74040.6429
RedPajama-INCITE-Base-3B-v10.65410.63170.63220.74700.6662



RedPajama-INCITE-Base-3B-v1的HuggingFace地址: https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-3B-v1 

RedPajama-INCITE-Chat-3B-v1的HuggingFace地址: https://huggingface.co/togethercomputer/RedPajama-INCITE-Chat-3B-v1 

RedPajama-INCITE-Instruct-3B-v1的HuggingFace地址: https://huggingface.co/togethercomputer/RedPajama-INCITE-Instruct-3B-v1 


关于INCTE名称的含义来源

RedPajama是一项合作项目。INCITE含义:“理论和实验的创新和新型计算影响(The Innovative and Novel Computational Impact on Theory and Experiment,INCITE)”计划是科学界获得美国能源部领先级超级计算机(ALCF和OLCF)的主要手段。按照上述说明,MILA、EleutherAI和LAION应该是有这个超级计算机的使用时间,然后他们把它贡献给了RedPajama团队用以训练RedPajama INCITE 3B,所以这个模型名称带了INCITE。


欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

RedPajama INCITE 3B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

RedPajama INCITE 3B相关的任务
问答系统

问答系统

Question Answering

35个资源