视觉与自然语言多模态预训练模型的综述来了

标签:cv,nlp,综述 时间:2022-09-11 11:07:17.628 发布者:小木

论文名:VLP: A Survey on Vision-Language Pre-training
发布时间:2022年7月30日
论文地址:https://arxiv.org/abs/2202.09061
代码地址:

原文摘要:在过去的几年里,预训练模型的出现将计算机视觉(CV)和自然语言处理(NLP)等单模态领域带入了一个新时代。大量的工作表明它们有利于下游的单模态任务,避免从头开始训练新的模型。那么,这种预训练的模型能否应用于多模态任务?研究人员已经探索了这个问题并取得了重大进展。本文调查了视觉语言预训练(VLP)的最新进展和新领域,包括图像-文本和视频-文本预训练。为了让读者对VLP有一个更好的整体把握,我们首先从五个方面回顾了它的最新进展:特征提取、模型结构、预训练目标、预训练数据集和下游任务。然后,我们详细总结了具体的VLP模型。最后,我们讨论了VLP的新前沿。据我们所知,这是第一个专注于VLP的调查。我们希望这项调查能够为VLP领域的未来研究带来启示。