CodeGen2.5
CodeGen2.5
模型参数
70.0亿
上下文长度
2K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-07-07
模型文件大小
27GB
MoE架构
否
总参数 / 激活参数
70.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
Salesforce
查看发布机构详情 模型解读
Salesforce AI Research团队最近发布了他们的新型大型语言模型(LLM)——CodeGen2.5。尽管近期的趋势是开发越来越大的语言模型,但是CodeGen2.5证明了,如果训练得当,一个小型模型也可以取得出人意料的好性能。
主要贡献
CodeGen2.5的主要贡献包括:
- 发布了在HumanEval上达到最新水平的CodeGen2.5 LLM,参数量为70亿。
- CodeGen2.5的参数量为70亿,与参数量大于150亿的代码生成模型(如CodeGen1-16B、CodeGen2-16B、StarCoder-15B)相当,但大小不到一半。
- 引入了强大的内插采样,即模型可以“阅读”当前位置左右两侧的文本。
- 优化了在Flash attention下的快速采样,以便优化服务和在个人机器上的本地部署。
- 采用Apache 2.0许可。
动机
在2022年,Salesforce Research发布了CodeGen,这是首批用于程序合成的LLM之一,参数量为160亿。CodeGen模型允许用户将自然语言(如英语)“翻译”成编程语言(如Python)。对于这类模型,自从发现了规模定律(即模型和数据集大小之间的幂律关系)以来,主导趋势一直是将LLM扩展到更大的规模。
然而,CodeGen2.5采用了一种特殊的训练策略,允许模型在多个周期内进行训练,这可能使得我们可以使用更多的数据来训练一个较小的模型,而不是一个较大的模型,后者在生产环境中的服务和维护成本较高。
结论
CodeGen模型家族迎来了新成员——CodeGen2.5,小巧但强大。我们展示了多周期训练可以缓解数据限制,并导致小型但强大的模型。除了相对较小的规模外,CodeGen2.5还具有强大的内插采样和快速采样功能,这两者都使得这些模型能够用于编码助手的产品化。在未来,我们将进一步推动这类模型的边界。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
