De

DeciLM 6B

基础大模型

DeciLM-6B

发布时间: 2023-09-13

530
模型参数(Parameters)
57.0
最高上下文长度(Context Length)
4K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

4K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2023-09-13

模型预文件大小

11.3GB

开源和体验地址

代码开源状态
预训练权重开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
暂无公开的 API 定价信息。

DeciLM 6B模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

DeciLM-6B模型解读

DeciLM 6B 是一种创新的大型语言模型(LLM),旨在解决训练和推理中不断增长的计算需求问题。它伴随着 DeciLM 6B-Instruct,后者经过微调以适用于指令跟随用例。关于 DeciLM 6B 及其创新的关键要点包括:

  1. 独特的架构:DeciLM 6B 使用了一种可变的 Grouped-Query Attention(GQA)方法,不同于传统的变换器模型,可以在效率和模型质量之间取得平衡。
  2. 可变的 Grouped-Query Attention:与其他模型不同,DeciLM 在变换器层之间变化了注意组、键和值的数量,以满足每个层独特的需求。
  3. AutoNAC 引擎:DeciLM 的架构是使用 Deci 的专有神经架构搜索(NAS)引擎 AutoNAC 生成的,它有效地选择了每个层的最佳 GQA 组参数。
  4. 训练:DeciLM 6B 使用 SlimPajamas 数据集的子集进行训练,并经过 LoRA 微调,创建了 DeciLM 6B-Instruct。
  5. 性能分析:尽管具有明显较少的参数,DeciLM 6B-Instruct 在其类别中表现出色,排名前列,性能出色。
  6. 推理效率:DeciLM 展示了比其他模型更出色的内存效率和更高的吞吐量。由 Deci 开发的 Infery-LLM 推理 SDK 进一步提高了效率并降低了推理成本。
  7. 成本和环境影响:使用 DeciLM 和 Infery-LLM 可降低推理成本,减少碳排放,是一种环保的选择。
  8. 生成式人工智能应用:DeciLM 的效率提升使其适用于各种生成式人工智能应用,确保实时响应和高吞吐量。
  9. 开源可用性:DeciLM 以宽松的许可证发布给开源社区,鼓励研究人员和开发人员在其工作中使用它。

总之,DeciLM 6B 代表了LLM领域的重大进展,提供了效率和模型质量之间的平衡。其独特的架构创新和与Infery-LLM的兼容性使其成为各种AI应用的有价值资源,同时也解决了成本和环境问题。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat