A21 Labs宣布开源520亿参数的全新混合专家大模型(Mixture of Experts,MoE)Jamba:单个GPU的上下文长度是Mixtral 8x7B的三倍
A21实验室是一家以色列的大模型研究机构,专门从事自然语言处理相关的研究。就在今天,A21实验室开源了一个全新的基于混合专家的的大语言模型Jamba,这个MoE模型可以在单个GPU上支持最高140K上下文的输入,非常具有吸引力。

Jamba大模型简介
Jamba是一个基于结构状态空间和transformers架构结合的大语言模型。是基于此前卡耐基梅隆大学和普林斯顿大学发布的Mamba模型的实践结果。
Mamba是基于结构化状态空间模型(Structured State Space Models,简称SSMs)训练的大模型。这个技术的核心思想是为了解决当前原生transformer架构在长序列输入的劣势。SSMs的核心思想是将输入序列通过一个隐含的状态空间进行转换,以此来捕捉序列中的动态特征和长期依赖关系。根据此前的研究,SSMs技术做的大模型有比常规的Transformer模型快5倍的吞吐量,支持处理数百万长度的序列数据。这个思路与此前泄露的OpenAI的Q*算法有异曲同工之妙:OpenAI秘密武器Q到底是什么?一个神秘帖子的解密:Q是一个不同于当前大模型推理方式的新对话生成系统
Jamba就是在Mamba基础上进行技术革新而训练的大语言模型。其核心技术特点是基于SSMs与transformer技术结合。此外,该模型还是一个混合专家技术的模型。
Jamba模型拥有,但在。这种设计使得模型在保持高效性能的同时,减少了对计算资源的需求。Jamba的架构允许它在,这比其他同等规模的开源模型更具可访问性。


