Jamba-v0.1

Name: Jamba-v0.1
Author: A21 Labs

基础大模型

Jamba-v0.1

Release date: 2024-03-28更新于: 2024-03-28 23:26:15720

Live demoGitHub Hugging Face Compare

Parameters

520.0亿

Context length

256K

Chinese support

Not supported

Reasoning ability

Jamba-v0.1 is an AI model published by A21 Labs, released on 2024-03-28, for 基础大模型, with 520.0B parameters, and 256K tokens context length, requiring about 102.9GB storage, under the Apache 2.0 license.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Jamba-v0.1

Model basics

Reasoning traces

Not supported

Thinking modes

Thinking modes not supported

Context length

256K tokens

Max output length

No data

Model type

基础大模型

Release date

2024-03-28

Model file size

102.9GB

MoE architecture

Total params / Active params

520.0B / N/A

Knowledge cutoff

No data

Jamba-v0.1

Open source & experience

Code license

Apache 2.0

Weights license

Apache 2.0- 免费商用授权

GitHub repo

https://github.com/state-spaces/mamba

Hugging Face

https://huggingface.co/ai21labs/Jamba-v0.1

Live demo

No live demo

Jamba-v0.1

Official resources

Paper

Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model

DataLearnerAI blog

No blog post yet

Jamba-v0.1

API details

API speed

No data

No public API pricing yet.

Jamba-v0.1

Benchmark Results

No benchmark data to show.

Jamba-v0.1

Publisher

A21 Labs

View publisher details

Jamba-v0.1

Model Overview

Jamba是由AI21公司推出的一款创新的人工智能模型，它是基于Mamba结构化状态空间模型（SSM）技术和传统Transformer架构元素的结合。这款模型的发布标志着在大型语言模型（LLM）创新方面的两个重要里程碑：成功地将Mamba与Transformer架构结合，并将这种混合的SSM-Transformer模型推进到生产级别的规模和质量。

参数和架构

参数规模：Jamba模型拥有52B（十亿）个参数，但在推理时只使用了其中的12B（十二亿）个参数。这种设计使得模型在保持高效性能的同时，减少了对计算资源的需求。
结构：Jamba采用了混合架构，结合了Transformer、Mamba和专家混合（MoE）层。这种结构优化了内存使用、吞吐量和性能。
MoE层：MoE层允许模型在推理时只激活必要的参数，从而提高了模型的效率。Jamba的MoE层使其在保持模型质量的同时，减少了活跃参数的数量。

技术和创新

SSM-Transformer混合架构：Jamba通过结合Mamba的高效内存使用和Transformer的强大功能，解决了传统Transformer架构在处理长文本时的内存占用大和推理速度慢的问题。
内存优化：Jamba的架构允许它在单个GPU上处理高达140K的上下文，这比其他同等规模的开源模型更具可访问性。
推理效率：Jamba在长上下文处理上的吞吐量是Mixtral 8x7B的三倍，这表明其在处理大量数据时更为高效。

训练数据

文档中没有提供关于Jamba模型训练数据的具体信息。通常，为了训练高质量的语言模型，需要大量的、多样化的文本数据。这些数据可能包括书籍、文章、网页内容等，以确保模型能够理解和生成各种类型的文本。

应用和可用性

开放权重：Jamba模型的权重是开放的，并且根据Apache 2.0许可协议进行许可，这意味着开发者可以自由地使用、修改和分发这个模型。
可用性：Jamba可以通过Hugging Face平台获取，并且即将在NVIDIA API目录中作为NVIDIA NIM推理微服务提供。这使得企业应用开发者可以使用NVIDIA AI企业软件平台来部署Jamba。

总结

Jamba模型的发布是AI领域的一个重大突破，它通过结合Mamba和Transformer架构的优势，提供了一个高效、可扩展且性能卓越的解决方案。它的开放权重和即将到来的NVIDIA API集成，为开发者提供了更多的机会来探索和优化这一技术，推动人工智能的进一步发展。随着社区对这个新模型的进一步实验和优化，我们期待Jamba在未来能够达到更高的性能水平。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送