视觉与自然语言多模态预训练模型的综述来了

原文摘要：在过去的几年里，预训练模型的出现将计算机视觉（CV）和自然语言处理（NLP）等单模态领域带入了一个新时代。大量的工作表明它们有利于下游的单模态任务，避免从头开始训练新的模型。那么，这种预训练的模型能否应用于多模态任务？研究人员已经探索了这个问题并取得了重大进展。本文调查了视觉语言预训练（VLP）的最新进展和新领域，包括图像-文本和视频-文本预训练。为了让读者对VLP有一个更好的整体把握，我们首先从五个方面回顾了它的最新进展：特征提取、模型结构、预训练目标、预训练数据集和下游任务。然后，我们详细总结了具体的VLP模型。最后，我们讨论了VLP的新前沿。据我们所知，这是第一个专注于VLP的调查。我们希望这项调查能够为VLP领域的未来研究带来启示。