计算机视觉的五个趋势

这是一篇来自Sayak Paul的预测，这个哥们长期混迹于各个开源社区，积极参与各大公司的开发者大会。目前在一家初创企业工作，简历非常丰富，非常积极在社区推广自己。但是不管怎么说，他在计算机视觉领域也是一直在一线工作。他对未来计算机视觉的发展方向有五个预测，虽然不一定准确，但是我们可以借助这个进行思考。

趋势一：资源节约型的模型（Resource-Efficient Models）

如今，最先进的计算机视觉的模型越来越多，难以在边缘设备如手机等运行。这些大模型虽然效果很好，但是成本巨大，且时延很高。在没有云基础设施的支撑下很难被使用。因此，需要一些低资源消耗的模型进行生产部署。主要方向包括：

稀疏训练：通过丢弃某个低于阈值的网络参数或者是放弃某些维度的互相作用，以加快网络的训练。虽然可能会丢失一些精度，但是可以降低成本，减少训练时间。

训练后的推理：在模型训练后，降低参数精度，通过量化感知训练，补偿降低精度造成的信息损失。

知识蒸馏：训练一个高性能的教师模型，然后通过训练另一个较小的学生模型来提炼其 "知识"，以匹配教师所产生的标签。

趋势二：基于生成式深度学习的创意创造应用

主要是利用生成对抗网络来创造一些“没有”的内容。包括提高图像分辨率、领域转移（如最近很火的人类图片卡通化）、为遮挡的区域生成新的画面（在PS软件中应用）以及根据标题生成图像等。基于某些信息创造新的内容在很多的领域都有很好的应用。这也是CV的一个重要的应用趋势。

趋势三：自监督学习

自监督学习是一种不使用任何标签的数据进行学习的模型。也就是类似无监督学习。有监督的学习固然是好，但是成本也很高。雇佣人员对图像进行标注非常耗费成本，尽管业界已经开源了很多的图像分类的数据集，但是现实中，CV面临的任务很多，无法穷举。因此，使用自监督学习模型对无标签的数据进行训练是一个很好的方向。

趋势四：Transformers和Self-Attention会继续发展

注意力机制与Transformers最早都是来自NLP的进展。实践证明，这两个方向在NLP任务中取得了巨大的成功。现在在CV领域也出现了类似的机制，如GC Blocks、SE Networks等。但是效果不如在NLP里面显著。但是，通过量化成对的point之间的互动来调整模型参数其实应该也是一个正确的方向。因此，作者认为，在CV里面，这两个将会是未来的方向。

趋势五：稳健的视觉模型

与其它模型类似，CV的模型会受到很多因素的影响。在过去一段时间也有很多案例证明，对输入做一些小的变化，人类依然可以准确的感知图像。但是CV的模型很容易出现很大的偏差。CV模型很容易受到各方面的影响，包括：

输入的扰动
深度模型容易捕捉高频区域，对常见的破坏影响很大，包括模糊、对比度、缩放等破坏
面对训练数据之外的数据无法有效工作

解决方向：

基于对抗性的训练来增强抗干扰能力
一致性正则化（Consistency regularization）：即模型在有噪声的情况下可以保持一致的输入，如RandAugment, Noisy Student Training, FixMatch等
对异常数据进行检测

原文：https://medium.com/bitgrit-data-science-publication/5-computer-vision-trends-for-2021-96fd18d5596c

趋势一：资源节约型的模型（Resource-Efficient Models）

趋势二：基于生成式深度学习的创意创造应用

趋势三：自监督学习

趋势四：Transformers和Self-Attention会继续发展

趋势五：稳健的视觉模型

DataLearner WeChat