Chinchilla
Chinchilla
模型参数
700.0
上下文长度
2K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2022-03-29
模型文件大小
未知
推理模式
暂无模式数据
开源和体验地址
代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
Google Deep Mind
查看发布机构详情 模型解读
我们研究了在给定的计算预算下,训练一个转化器语言模型的最佳模型大小和标记数量。我们发现,目前的大型语言模型训练不足,这是最近关注在保持训练数据量不变的情况下扩展语言模型的结果。通过在5-5,000亿个标记上训练超过400个从7,000万到超过160亿个参数的语言模型,我们发现,对于计算优化的训练,模型的大小和训练标记的数量应该是等比例的:模型大小每增加一倍,训练标记的数量也应该增加一倍。我们通过训练一个预测的计算最优模型Chinchilla来测试这个假设,该模型使用与Gopher相同的计算预算,但有700B的参数和4倍以上的数据。Chinchilla在大范围的下游评估任务上均匀且明显地优于Gopher(280B)、GPT-3(175B)、Jurassic-1(178B)和Megatron-Turing NLG(530B)。这也意味着Chinchilla用于微调和推理的计算量大大减少,大大促进了下游的使用。作为一个亮点,Chinchilla在MMLU基准上达到了最先进的平均准确率67.5%,比Gopher提高了7%以上。