文本转3D模型来了—谷歌研究院最新成果DreamFusion

标签:text-to-3d,生成模型 时间:2022-09-30 15:03:00.768 发布者:小木

论文名:DreamFusion: Text-to-3D using 2D Diffusion
发布时间:2022年9月
论文地址:https://arxiv.org/abs/2209.14988
代码地址:

原文摘要:最近在文本-图像合成方面的突破是由在数十亿图像-文本对上训练的扩散模型推动的。将这种方法应用于三维合成需要大规模的标记三维数据集和高效的三维数据去噪架构,而这两者目前都不存在。在这项工作中,我们通过使用预先训练好的二维文本到图像的扩散模型来执行文本到三维的合成,从而规避了这些限制。我们引入了一种基于概率密度蒸馏的损失,使得二维扩散模型可以作为优化参数化图像生成器的先验。在一个类似DeepDream的程序中使用这种损失,我们通过梯度下降法优化一个随机初始化的三维模型(一个神经辐射场,或NeRF),使其从随机角度的二维渲染达到低损失。由此产生的给定文本的三维模型可以从任何角度观看,通过任意的照明重新点亮,或者合成到任何三维环境中。我们的方法不需要3D训练数据,也不需要修改图像扩散模型,这证明了预训练的图像扩散模型作为先验因素的有效性。