CH

Chinchilla

Chinchilla

发布时间: 2022-03-29138

在线体验 GitHub Hugging Face

模型参数

700.0

上下文长度

2K

中文支持

不支持

推理能力

模型基本信息

推理过程

不支持

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

暂无数据

发布时间

2022-03-29

模型文件大小

未知

推理模式

暂无模式数据

开源和体验地址

代码开源状态

暂无数据

预训练权重开源

暂无数据

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

Training Compute-Optimal Large Language Models

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

Google Deep Mind

查看发布机构详情

模型解读

我们研究了在给定的计算预算下，训练一个转化器语言模型的最佳模型大小和标记数量。我们发现，目前的大型语言模型训练不足，这是最近关注在保持训练数据量不变的情况下扩展语言模型的结果。通过在5-5,000亿个标记上训练超过400个从7,000万到超过160亿个参数的语言模型，我们发现，对于计算优化的训练，模型的大小和训练标记的数量应该是等比例的：模型大小每增加一倍，训练标记的数量也应该增加一倍。我们通过训练一个预测的计算最优模型Chinchilla来测试这个假设，该模型使用与Gopher相同的计算预算，但有700B的参数和4倍以上的数据。Chinchilla在大范围的下游评估任务上均匀且明显地优于Gopher（280B）、GPT-3（175B）、Jurassic-1（178B）和Megatron-Turing NLG（530B）。这也意味着Chinchilla用于微调和推理的计算量大大减少，大大促进了下游的使用。作为一个亮点，Chinchilla在MMLU基准上达到了最先进的平均准确率67.5%，比Gopher提高了7%以上。