DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Home/
  2. Blog List/
  3. Blog Detail

新的对话式语言模型可以将自然语言转换成可执行代码!

2022/04/03 14:30:11
1,627 views
论文快讯

Salesforce的研究人员在前几天提交了一个非常有意思的论文,它可以把自然语言直接转换成代码。他们的提出的CodeGen模型是一个大型的语言模型,是一种会话式的语言模型。CodeGen使编程像说话一样简单,可以将英文描述转换为可用的Python代码--这将允许任何人编写代码,即使他们没有编程经验。

新方法将编写规范和程序的过程描述为用户和系统之间的多轮对话。它将程序合成视为一个序列预测问题,其中规范是用自然语言表达的,所需的程序是有条件采样的。我们在自然语言和编程语言数据上训练一个大型语言模型系列,称为CodeGen。随着数据中的弱监督以及数据规模和模型规模的扩大,对话能力从简单的自回归语言建模中出现。为了研究对话式程序合成的模型行为,我们开发了一个多轮编程基准(MTPB),其中解决每个问题需要通过用户和模型之间的多轮对话进行多步骤合成。我们的发现显示了对话能力的出现和所提出的对话式程序合成范式的有效性。此外,我们的模型CodeGen(在TPU-v4上训练了多达16B的参数)在HumanEval基准上超过了OpenAI的Codex。我们将包括检查点在内的训练库JaxFormer作为开放源码贡献出来。

论文地址:https://doi.org/10.48550/arXiv.2203.13474

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

  • 如何构建下一代机器翻译系统——Building Machine Translation Systems for the Next Thousand Languages
  • XLNet基本思想简介以及为什么它优于BERT
  • Unifying Language Learning Paradigms——谷歌的一个模型打天下
  • 正则化和数据增强对模型的影响并不总是好的:The Effects of Regularization and Data Augmentation are Class Dependent
  • 最近一段时间深度学习大模型的重要进展(2022年4月初)
  • Google最新超大模型Pathways:一个会讲笑话的6400亿参数的语言模型
  • 大型语言模型的新扩展规律(DeepMind新论文)——Training Compute-Optimal Large Language Models
  • Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署