CodeGen2.5
CodeGen2.5 is an AI model published by Salesforce, released on 2023-07-07, for 编程大模型, with 70.0B parameters, and 2K tokens context length, requiring about 27GB storage, under the Apache 2.0 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
Salesforce AI Research团队最近发布了他们的新型大型语言模型(LLM)——CodeGen2.5。尽管近期的趋势是开发越来越大的语言模型,但是CodeGen2.5证明了,如果训练得当,一个小型模型也可以取得出人意料的好性能。
CodeGen2.5的主要贡献包括:
在2022年,Salesforce Research发布了CodeGen,这是首批用于程序合成的LLM之一,参数量为160亿。CodeGen模型允许用户将自然语言(如英语)“翻译”成编程语言(如Python)。对于这类模型,自从发现了规模定律(即模型和数据集大小之间的幂律关系)以来,主导趋势一直是将LLM扩展到更大的规模。
然而,CodeGen2.5采用了一种特殊的训练策略,允许模型在多个周期内进行训练,这可能使得我们可以使用更多的数据来训练一个较小的模型,而不是一个较大的模型,后者在生产环境中的服务和维护成本较高。
CodeGen模型家族迎来了新成员——CodeGen2.5,小巧但强大。我们展示了多周期训练可以缓解数据限制,并导致小型但强大的模型。除了相对较小的规模外,CodeGen2.5还具有强大的内插采样和快速采样功能,这两者都使得这些模型能够用于编码助手的产品化。在未来,我们将进一步推动这类模型的边界。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
