BigCode 简介

BigCode

BigCode是一个开放的科学合作组织,致力于负责任地开发大型代码语言模型,通过开放治理为机器学习和开源社区赋权。

代码LLM能够完成和合成来自其他代码片段和自然语言描述的代码,并在广泛的领域、任务和编程语言中工作。例如,这些模型可以帮助专业和公民开发人员构建新的应用程序。

BigCode邀请人工智能研究人员共同开发最先进的代码LLM,并就以下研究主题进行合作:

  • 为代码LLM构建一个具有代表性的评估套件,涵盖一组不同的任务和编程语言
  • 开发新方法以更快地训练和推理LLM
  • LLM规范的法律、道德和治理方面

BigCode项目是本着开放科学的精神进行的。数据集、模型和实验是通过开放协作开发的,并在许可的情况下发布给社区。虽然该项目得到了ServiceNow和HuggingFace的公司支持,例如托管模型和数据集,以及训练计算;所有的技术治理都是在整个社区的工作组和工作组中进行的。

由于代码LLM是用开源社区的数据开发的,我们相信开放治理可以帮助确保这些模型惠及更大的开发人员社区。我们正在开发一些工具,让代码创建者有权决定他们的源代码是否包含在训练数据中,并在模型输出接近训练数据副本时将其归因于开发人员。

BigCode发布的大模型列表

StarCodeBase

155.0

亿个参数

2023-05-04

发布时间

免费商用授权

预训练结果开源

StarCoder

155.0

亿个参数

2023-05-05

发布时间

免费商用授权

预训练结果开源

StarCoder2-15B

150.0

亿个参数

2024-02-28

发布时间

免费商用授权

预训练结果开源