Model Overview

2023年6月22日，MPT已经发布330亿参数规模模型，关于MPT的更多信息参考： https://www.datalearner.com/ai-models/foundation-models/MPT

MPT-7B是由MosaicML推出的transformer大模型。是基于1万亿tokens的文本和代码训练的。这是一个完全开源且允许商用的末。质量与LLaMA-7B差不多。

MPT-7B简介

MPT全称是MosaicML Pretrained Transformer，是MosaicML发布的一系列大模型。尽管业界已经发布了很多大模型，但是这些模型通常都比较难以训练和部署。而MosaicML发布这样的大模型的目的就是为了解决上述限制，提供一个完全开源且可商用的一个大模型。MPT系列主要的特点是：

有商用许可
基于大量的数据训练
目标是解决长输入（最高支持65K的输入，84K的处理）
训练与推理速度的优化
高效的开源训练代码

从这些特点看，MPT真的是一个很优秀的开源大模型，且官方宣称它的评测结果与LLaMA-7B差不多。

MPT-7B的版本

目前，MPT-7B包含四个版本：分别是MPT-7B Base、MPT-7B-StoryWriter-65k+、MPT-7B-Instruct和MPT-7B-Chat。其主要的区别如下：

MPT-7B Base：67亿参数的decoder-style模型。基于1万亿tokens的文本和代码数据训练，数据集由MosaicML小组收集。该模型授权商用。
MPT-7B-StoryWriter-65k+：这个模型的目的是用来读取和生成超长内容的，它是基于MPT-7B微调的，从books3数据集中的一个虚构子集训练的。在推断时，由于ALiBi的存在，MPT-7B-StoryWriter-65k+可以对超出65k个标记进行推断。官方已经在单个A100-80GB GPU节点上演示了长达84k标记的生成。该模型授权商用。
MPT-7B-Instruct：MPT-7B-Instruct是一个短格式指令跟踪模型，通过在MosaicML发布的数据集上微调MPT-7B而构建，该数据集源自于Databricks Dolly-15k和Anthropic的Helpful和Harmless数据集。该模型授权商用。
MPT-7B-Chat：MPT-7B-Chat是一个用于生成对话的聊天机器人模型。通过在ShareGPT-Vicuna、HC3、Alpaca、Helpful and Harmless以及Evol-Instruct数据集上微调MPT-7B构建而成。不授权商用。

上述四个模型总结如下：

模型名称	特点	是否可商用	模型链接
MPT-7B Base	MPT基础模型，基于1万亿tokens数据集训练	授权商用	https://huggingface.co/mosaicml/mpt-7b
MPT-7B-StoryWriter-65k+	基于MPT-7B进一步微调得到，针对长输入场景，最多可以生成65k+的长内容	授权商用	https://huggingface.co/mosaicml/mpt-7b-storywriter
MPT-7B-Instruct	指令跟踪模型，基于MPT-7B Base在指令数据集微调得到	授权商用	https://huggingface.co/mosaicml/mpt-7b-instruct
MPT-7B-Chat	一个用于生成对话的聊天机器人模型	不可以商用	https://huggingface.co/mosaicml/mpt-7b-chat

MPT-7B模型和其它开源模型的对比

官方放出了不同模型在不同任务上的对比结果

非常清楚。

MPT 7B

Model basics

Open source & experience

Official resources

API details

Benchmark Results

Publisher

Model Overview

2023年6月22日，MPT已经发布330亿参数规模模型，关于MPT的更多信息参考： https://www.datalearner.com/ai-models/foundation-models/MPT

MPT-7B简介

MPT-7B的版本

MPT-7B模型和其它开源模型的对比

Foundation model

DataLearner 官方微信