MosaicML Pretrained Transformer-7B
MosaicML Pretrained Transformer-7B is an AI model published by MosaicML, released on 2023-05-05, for 基础大模型, with 70.0B parameters, and 2K tokens context length, requiring about 13.3GB storage, under the Apache 2.0 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
MPT-7B是由MosaicML推出的transformer大模型。是基于1万亿tokens的文本和代码训练的。这是一个完全开源且允许商用的末。质量与LLaMA-7B差不多。
MPT全称是MosaicML Pretrained Transformer,是MosaicML发布的一系列大模型。尽管业界已经发布了很多大模型,但是这些模型通常都比较难以训练和部署。而MosaicML发布这样的大模型的目的就是为了解决上述限制,提供一个完全开源且可商用的一个大模型。MPT系列主要的特点是:
从这些特点看,MPT真的是一个很优秀的开源大模型,且官方宣称它的评测结果与LLaMA-7B差不多。
目前,MPT-7B包含四个版本:分别是MPT-7B Base、MPT-7B-StoryWriter-65k+、MPT-7B-Instruct和MPT-7B-Chat。其主要的区别如下:
上述四个模型总结如下:
| 模型名称 | 特点 | 是否可商用 | 模型链接 |
|---|---|---|---|
| MPT-7B Base | MPT基础模型,基于1万亿tokens数据集训练 | 授权商用 | https://huggingface.co/mosaicml/mpt-7b |
| MPT-7B-StoryWriter-65k+ | 基于MPT-7B进一步微调得到,针对长输入场景,最多可以生成65k+的长内容 | 授权商用 | https://huggingface.co/mosaicml/mpt-7b-storywriter |
| MPT-7B-Instruct | 指令跟踪模型,基于MPT-7B Base在指令数据集微调得到 | 授权商用 | https://huggingface.co/mosaicml/mpt-7b-instruct |
| MPT-7B-Chat | 一个用于生成对话的聊天机器人模型 | 不可以商用 | https://huggingface.co/mosaicml/mpt-7b-chat |
官方放出了不同模型在不同任务上的对比结果

非常清楚。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
