BigCode是一个开放的科学合作组织,致力于负责任地开发大型代码语言模型,通过开放治理为机器学习和开源社区赋权。
代码LLM能够完成和合成来自其他代码片段和自然语言描述的代码,并在广泛的领域、任务和编程语言中工作。例如,这些模型可以帮助专业和公民开发人员构建新的应用程序。
BigCode邀请人工智能研究人员共同开发最先进的代码LLM,并就以下研究主题进行合作:
BigCode项目是本着开放科学的精神进行的。数据集、模型和实验是通过开放协作开发的,并在许可的情况下发布给社区。虽然该项目得到了ServiceNow和HuggingFace的公司支持,例如托管模型和数据集,以及训练计算;所有的技术治理都是在整个社区的工作组和工作组中进行的。
由于代码LLM是用开源社区的数据开发的,我们相信开放治理可以帮助确保这些模型惠及更大的开发人员社区。我们正在开发一些工具,让代码创建者有权决定他们的源代码是否包含在训练数据中,并在模型输出接近训练数据副本时将其归因于开发人员。