基于视频数据的预训练模型VITO以及向ImageNet看齐的视频数据基准VideoNet发布

原文摘要：视频所包含的信息远远多于静止的图像，并具有学习视觉世界的丰富表征的潜力。然而，对图像数据集的预训练仍然是学习捕捉空间信息的表征的主流范式，以前在视频预训练方面的尝试在图像理解任务中是失败的。在这项工作中，我们重新审视了从视频帧的动态演变中对图像表征的自我监督学习。为此，我们提出了一个数据集策划程序，以解决视频和图像数据集之间的领域不匹配问题，并开发了一个对比性学习框架，以处理自然视频中存在的复杂转换。这种将知识从视频提炼成图像表征的简单范式，称为VITO，在各种基于图像的迁移学习任务中表现得出奇地好。在PASCAL和ADE20K的语义分割以及COCO和LVIS的物体检测上，我们的视频预训练模型首次缩小了与ImageNet预训练的差距，这表明视频预训练可以成为学习图像表征的新默认方法。

基于图像数据进行大模型的预训练一直是当前计算机视觉领域（CV）最主流的研究方法，事实也证明这是非常有效的方式。但是，图片所能表达的信息与视频相比还是太简单。视频所包含的物体的比例、尺寸、颜色等都比图片丰富太多。同时，物体的形状、方向等也都是视频才能表达更好的内容。

但是，当前研究很少有基于视频数据的模型训练。

虽然自监督视频预训练最近在视频表征学习中出现了各种成功的应用，但在学习图像表征时，它通常落后于ImageNet预训练方法。此外，视频表征架构的特殊性使其难以与基于图像的架构进行比较，从而掩盖了基础数据和学习范式对所产生的表征质量的作用。

在这项工作中，Meta研究人员对基于图像和视频的图像表征学习进行了系统的比较。研究人员发现标准视频数据集的空间内容对所产生的表征的质量有不利的影响，这是由它们在典型场景理解任务上的表现来衡量的。因此，Meta引入了一个新的数据基准--VideoNet--它使它们的类别分布与ImageNet一致，并部分地纠正了图像和视频学习之间的不平衡。此外，Meta研究人员对标准的对比范式提出了三个简单的修改，以考虑到视频数据的特殊性：不那么激进的作物增加，多尺度的注意力集中，以及用自然的时间变形丰富视图的生成。这些改进加在一起，在PASCAL和ADE20K的语义分割以及COCO和LVIS的物体检测上产生了巨大的收益，首次缩小了基于图像和视频的表示学习之间的差距。这为视频预训练作为一种通用的视觉表征学习手段的承诺提供了新的方向。

<center>![](https://www.datalearner.com/resources/blog_images/32a40a46-9127-4c6f-9a87-23ff857c686a.png)</center>
<center></center>
<center>![](https://www.datalearner.com/resources/blog_images/ab6f9ac9-366f-47b3-bf81-36ccf41e214d.png)</center>
<center></center>

作者研究了用标准数据集进行视频学习的潜力，包括Kinetics、AudioSet和YouTube-8M。然而，之前的工作表明，即使是自我监督的方法也对预训练的分布很敏感。因此，我们假设，视频预训练可能会受益于与标准图像数据集的统计数据更加一致的数据分布。作为对这一假设的测试，我们开发了一个简单的数据整理管道（我们称之为VideoNet）来过滤在线视频，使我们的训练数据更接近于ImageNet的类别分布。对于1,000个ImageNet类别中的每一个，我们检索了5,000个视频片段，其标题包括该类别的名称或同义词。然后，我们通过应用图像分类器对这些视频进行过滤，以验证这些视频是否包含预期的对象类别。为此，我们在每个视频的前100帧上运行了一个预训练的ResNet-50 ImageNet分类器，并丢弃了那些查询类别不等于ResNet对任何帧的前1名预测的视频。此外，我们还舍弃了长度小于10秒的视频。这个过程产生了一个总共有1,180,042个视频的数据集。

Meta人员表示，VITO预训练模型和VideoNet数据集将很快会公开。

基于视频数据的预训练模型VITO以及向ImageNet看齐的视频数据基准VideoNet发布

论文名：Self-supervised video pretraining yields strong image representation

发布时间：2022年10月

论文地址：https://arxiv.org/abs/2210.06433

代码地址：