MosaicML Pretrained Transformer - 30B
MosaicML Pretrained Transformer - 30B is an AI model published by MosaicML, released on 2023-06-22, for 基础大模型, with 300.0B parameters, and 2K tokens context length, requiring about 60GB storage, under the Apache 2.0 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
MPT-30B是MosaicML开源的一个300亿参数规模的基础大语言模型。这是距离MPT-7B系列模型发布仅仅一个多月时间又一次更新。
相比较此前的MPT-7B系列模型,MPT-30B修改了transformer架构,使其训练和推理更加高效。MPT-30B是一个基础大语言模型,训练数据依然来自MosaicML团队收集的1万亿文本和代码数据集。
MPT-30B具有区别于其他LLM的特殊能力,包括支持8k的上下文窗口(可以通过微调进一步扩展,类似于MPT-7B-StoryWriter),通过ALiBi支持上下文长度的外推,以及通过FlashAttention进行高效推理+训练。由于其预训练组合,它还具有强大的编码能力。
至于300亿参数规模,官方也宣称是一种精心选择的结果,MPT-30B的规模可以在单个GPU上部署:其16位精度的模型可以部署在单个xA100-80GB显卡上,而8位精度的模型则可以部署在一个A100-40GB显卡上。
MPT-30B依然是代码和预训练结果均开源可商用的方式授权,以Apache 2.0协议开源。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
