De

DeciLM 6B

基础大模型

DeciLM-6B

发布时间: 2023-09-13

模型参数(Parameters)
57.0
最高上下文长度(Context Length)
4K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

4K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2023-09-13

模型预文件大小

11.3GB

开源和体验地址

代码开源状态
预训练权重开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

DeciLM 6B模型在各大评测榜单的评分

发布机构

模型介绍

DeciLM 6B 是一种创新的大型语言模型(LLM),旨在解决训练和推理中不断增长的计算需求问题。它伴随着 DeciLM 6B-Instruct,后者经过微调以适用于指令跟随用例。关于 DeciLM 6B 及其创新的关键要点包括:

  1. 独特的架构:DeciLM 6B 使用了一种可变的 Grouped-Query Attention(GQA)方法,不同于传统的变换器模型,可以在效率和模型质量之间取得平衡。
  2. 可变的 Grouped-Query Attention:与其他模型不同,DeciLM 在变换器层之间变化了注意组、键和值的数量,以满足每个层独特的需求。
  3. AutoNAC 引擎:DeciLM 的架构是使用 Deci 的专有神经架构搜索(NAS)引擎 AutoNAC 生成的,它有效地选择了每个层的最佳 GQA 组参数。
  4. 训练:DeciLM 6B 使用 SlimPajamas 数据集的子集进行训练,并经过 LoRA 微调,创建了 DeciLM 6B-Instruct。
  5. 性能分析:尽管具有明显较少的参数,DeciLM 6B-Instruct 在其类别中表现出色,排名前列,性能出色。
  6. 推理效率:DeciLM 展示了比其他模型更出色的内存效率和更高的吞吐量。由 Deci 开发的 Infery-LLM 推理 SDK 进一步提高了效率并降低了推理成本。
  7. 成本和环境影响:使用 DeciLM 和 Infery-LLM 可降低推理成本,减少碳排放,是一种环保的选择。
  8. 生成式人工智能应用:DeciLM 的效率提升使其适用于各种生成式人工智能应用,确保实时响应和高吞吐量。
  9. 开源可用性:DeciLM 以宽松的许可证发布给开源社区,鼓励研究人员和开发人员在其工作中使用它。

总之,DeciLM 6B 代表了LLM领域的重大进展,提供了效率和模型质量之间的平衡。其独特的架构创新和与Infery-LLM的兼容性使其成为各种AI应用的有价值资源,同时也解决了成本和环境问题。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat