DeciLM 6B
DeciLM-6B
模型参数
57.0亿
上下文长度
4K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
4K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-09-13
模型文件大小
11.3GB
MoE架构
否
总参数 / 激活参数
57.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
预训练权重开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验
暂无在线体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
Deci
查看发布机构详情 模型解读
DeciLM 6B 是一种创新的大型语言模型(LLM),旨在解决训练和推理中不断增长的计算需求问题。它伴随着 DeciLM 6B-Instruct,后者经过微调以适用于指令跟随用例。关于 DeciLM 6B 及其创新的关键要点包括:
- 独特的架构:DeciLM 6B 使用了一种可变的 Grouped-Query Attention(GQA)方法,不同于传统的变换器模型,可以在效率和模型质量之间取得平衡。
- 可变的 Grouped-Query Attention:与其他模型不同,DeciLM 在变换器层之间变化了注意组、键和值的数量,以满足每个层独特的需求。
- AutoNAC 引擎:DeciLM 的架构是使用 Deci 的专有神经架构搜索(NAS)引擎 AutoNAC 生成的,它有效地选择了每个层的最佳 GQA 组参数。
- 训练:DeciLM 6B 使用 SlimPajamas 数据集的子集进行训练,并经过 LoRA 微调,创建了 DeciLM 6B-Instruct。
- 性能分析:尽管具有明显较少的参数,DeciLM 6B-Instruct 在其类别中表现出色,排名前列,性能出色。
- 推理效率:DeciLM 展示了比其他模型更出色的内存效率和更高的吞吐量。由 Deci 开发的 Infery-LLM 推理 SDK 进一步提高了效率并降低了推理成本。
- 成本和环境影响:使用 DeciLM 和 Infery-LLM 可降低推理成本,减少碳排放,是一种环保的选择。
- 生成式人工智能应用:DeciLM 的效率提升使其适用于各种生成式人工智能应用,确保实时响应和高吞吐量。
- 开源可用性:DeciLM 以宽松的许可证发布给开源社区,鼓励研究人员和开发人员在其工作中使用它。
总之,DeciLM 6B 代表了LLM领域的重大进展,提供了效率和模型质量之间的平衡。其独特的架构创新和与Infery-LLM的兼容性使其成为各种AI应用的有价值资源,同时也解决了成本和环境问题。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
