CerebrasAI开源可以在iPhone上运行的30亿参数大模型：BTLM-3B-8K，免费可商用，支持最高8K上下文输入，仅需3GB显存

大模型的进展非常快，但是如何在移动端部署和使用依然是一个非常大的挑战。今天，CerebrasAI联合Opentensor一起开源了一个30亿参数规模的模型BTLM-3B-8K，官方宣称其性能接近70亿参数规模的大模型，但是运行的资源却很低，最低量化版本只需要不到4GB显存即可。

BTLM-3B-8K模型简介

BTLM全称Bittensor Language Model，是由CerebrasAI与Opentensor共同研发的一个大语言模型。

该模型只有30亿参数的规模，但是在多项评测结果中，其性能接近70亿参数规模的主流模型。该模型在还未发布的一个AI超级计算机上训练。该模型架构接近此前CerebrasGPT模型（参考：https://www.datalearner.com/ai-models/pretrained-models/Cerebras-GPT ）。

BTLM-3B-8K基于SlimPajama-627B数据集训练（参考：https://www.datalearner.com/blog/1051686496562817 ），该数据集含6270亿个tokens，质量很高，做了广泛去重。

BTLM-3B-8K模型总共训练了一次epoch，其中75%是基于2K序列长度训练的，25%是基于8K序列长度训练的，因此它可以接受8K输入！

总的来说，BTLM-3B-8K最大的特点是资源小，但是性能很高：

性能强大：以30亿参数规模的模型达到70亿参数模型的性能，应该是目前最先进的30亿参数模型
支持长上下文：针对长序列长度推理进行优化，支持8K或更长序列
训练数据质量高：第一个在最大的全面去重开放数据集SlimPajama上训练的模型
资源要求很低：当量化为4位时，可在仅有3GB内存的设备上运行
开源协议十分友好：商业使用采用Apache 2.0许可证，也就是说完全免费商用授权！

BTLM-3B-8K模型的效果评价

根据官方给的评测结果，该模型非常优秀，是目前市场上最强大的30亿参数模型了。

在12项任务的评价得分中，BTLM-3B-8K在30亿参数规模模型中，准确率最高：

如果加上70亿参数规模的模型，BTLM-3B-8K依然很有竞争力：

考虑到它只有30亿参数，已经和MPT-7B等模型差不多水准，那还是十分优秀的！

最后，资源占用也是极低的！

可以看到，全精度版本的BTLM-3B-8K模型在M1的MacBook Air(8GB)版本上完全可以运行，而在iPhone13上也可以用量化版本运行！资源消耗惊人地低啊！

为什么要发布30亿参数的大语言模型

当前主流的兼顾性能和成本的大语言模型大多在70亿参数规模，如ChatGLM2-6B、Vicuna-7B等。如果能将参数规模降到30亿，同时还能有70亿参数规模的性能，那么对于移动端使用将十分有潜力。

如下图所示，是不同参数规模运行所需的资源概览：

可以看到，在主流的70亿参数规模的模型资源需求上，如果不做量化压缩，需要16-18GB左右显存，这几乎是消费级显卡的天花板，而130亿参数规模的大模型则需要接近30GB显存才可以运行，目前几乎没有消费级显卡进行可以支撑这样的资源需求。

而30亿参数规模的LLM不做量化的情况只需要6-8GB显存即可。做了量化压缩之后，最低仅需要3GB显存即可运行，已经是移动端可以支持的资源了。

BTLM-3B-8K总结

从目前官方给的结果看，BTLM-3B-8K模型十分有吸引力，在移动端的使用方面具有很强的竞争力。在一些无法联网但是希望使用LLM能力的地方基本上都可以考虑。

不过也可以看到，目前BTLM-3B-8K只在苹果的软硬件上做了测评，我理解可能的原因是苹果的统一内存架构使得它的内存可以当作显存用，这部分具体内容参考：突破英特尔CPU+英伟达GPU的大模型训练硬件组合：苹果与AMD都有新进展！

不过其它芯片厂商也没有等待，结合今天高通宣布与MetaAI正在研发将LLaMA2带入移动端，这部分的竞争未来也会非常激烈。

CerebrasAI的下一步计划是对这个模型做指令微调，然后发布更加详细的技术文档说明BTLM-3B-8K如何被训练出来的。

BTLM-3B-8K的其它信息包括资源下载和预训练地址、开源协议等参考模型信息卡：https://www.datalearner.com/ai-models/pretrained-models/BTLM-3B-8K

BTLM-3B-8K模型简介

BTLM-3B-8K模型的效果评价

为什么要发布30亿参数的大语言模型

BTLM-3B-8K总结

DataLearner 官方微信