RE

RedPajama INCITE 7B V0.1

RedPajama INCITE 7B V0.1

发布时间: 2023-05-05375

在线体验 GitHub Hugging Face

模型参数

70.0亿

上下文长度

2K

中文支持

不支持

推理能力

模型基本信息

推理过程

不支持

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

基础大模型

发布时间

2023-05-05

模型文件大小

13.8GB

MoE架构

否

总参数 / 激活参数

70.0 亿 / 不涉及

知识截止

暂无数据

推理模式

暂无模式数据

开源和体验地址

代码开源状态

暂无数据

预训练权重开源

暂无数据

GitHub 源码

https://github.com/togethercomputer

Hugging Face

https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-7B-v0.1

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

Releasing 3B and 7B RedPajama-INCITE family of models including base, instruction-tuned & chat models

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

TOGETHER

查看发布机构详情

模型解读

RedPajama INCITE 7B是TOGETHER发布的一系列语言模型中的一类，与RedPajama INCITE 3B同一天发布。不过参数规模70亿。

RedPajama INCITE 3B模型信息卡： https://www.datalearner.com/ai-models/pretrained-models/RedPajama-INCITE-3B

RedPajama INCITE 7B V0.1系列模型简介

与RedPajama INCITE 3B系列模型类似，RedPajama INCITE 7B也包含3个版本：

模型名称	模型类型	参数大小（亿）
RedPajama-INCITE-Base-7B-v0.1	语言模型	70
RedPajama-INCITE-Chat-7B-v0.1	Chat微调	70
RedPajama-INCITE-Instruct-7B-v0.1	指令微调	70

这三个版本的差异：

RedPajama-INCITE-Base-7B-v0.1：70亿规模的基础版本语言模型

RedPajama-INCITE-Chat-7B-v0.1：基于Chat数据集微调

RedPajama-INCITE-Instruct-7B-v0.1：基于指令数据微调

不过可以看到，本次模型的版本是v0.1，与3B模型的v1差异就是7B系列模型仍然在训练中，目前已经达到8000亿tokens的训练。由于TOGETHER官方看到训练损失仍在持续下降。因此，他们将继续训练，直到达到1万亿tokens。尽管如此，这个预训练结果非常有用，并且可以帮助社区更好地理解训练过程。因此，官方发布了三个中间检查点作为最终模型的“预览”。

RedPajama INCITE 7B V0.1系列模型评估结果

这些checkpoints都是根据Apache 2.0许可证发布的。即使在8000亿个tokens训练上，已经看到了令人兴奋的结果。在HELM上，基础模型的表现优于GPT-J和Pythia-6.9B等开放模型0.5-2.2个点，而在EleutherAI的lm-evaluation-harness上，它平均优于这些模型1-3个点。

此外，与LLaMA 7B相比，仍存在质量差距 - 目前在HELM上为4.3个点。对于少样本应用（例如HELM中的应用），调整指令的模型（RedPajama-INCITE-Instruct-7B-v0.1）在基础模型上有显着改进。官方希望在进行更多迭代训练后，一些差距可以被缩小。

Few-Shot得分结果：

模型	Type	HELM (16个核心场景平均得分)
GPT-J	Base model	0.417
Pythia-6.9B	Base model	0.400
Llama-7B	Base model	0.465
RedPajama-INCITE-Base-7B-v0.1	Base model	0.422
RedPajama-INCITE-Instruct-7B-v0.1	Instruction-tuned	0.499

Zero-shot得分结果：

模型	Lambada_openai (acc)	Hellaswag (acc_norm)	Winogrande (acc)	Piqa (acc)	average
GPT-J	0.6699	0.6663	0.6503	0.7565	0.6857
Pythia-6.9B	0.6712	0.6389	0.6069	0.7519	0.6672
Pythia-6.9B-dedup	0.6893	0.6588	0.6266	0.7578	0.6831
Llama-7B	0.7360*	0.7620*	0.7040	0.7810	0.7457
RedPajama-INCITE-Base-7B-v0.1	0.7061	0.6951	0.6519	0.7611	0.7035

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码