最新的Reducible Holdout Loss Selection可以让你的模型训练步骤减少18倍！

原文摘要：对网络规模的数据进行训练可能需要几个月。但是大部分的计算和时间都浪费在了已经学习过或无法学习的冗余和噪音点上。为了加速训练，我们引入了Reducible Holdout Loss Selection (RHO-LOSS)，这是一种简单但有原则的技术，它可以选择那些最能减少模型泛化损失的点进行训练。因此，RHO-LOSS减轻了现有数据选择方法的弱点：来自优化文献的技术通常选择 "硬"（如高损失）的点，但这些点往往是嘈杂的（不可学习）或与任务不太相关。相反，课程学习优先考虑 "容易 "的点，但这些点一旦学会就不需要训练。相反，RHO-LOSS选择的是可学习的、值得学习的和尚未学习的点。RHO-LOSS的训练步骤比现有技术少得多，提高了准确性，并在广泛的数据集、超参数和架构（MLPs、CNNs和BERT）上加快了训练速度。在大型网络刮削图像数据集Clothing-1M上，RHO-LOSS的训练步骤减少了18倍，最终准确率比统一数据洗牌高2%。通过www.DeepL.com/Translator（免费版）翻译

大模型已经被证明在很多任务上有无可比拟的优势。但是，基于大量数据的模型训练可能需要好几个月的时间。这些时间大多数都浪费在已经学习过或者无法学习的冗余与噪音点上。为此，牛津大学的研究人员提出了一个叫了Reducible Holdout Loss Selection (RHO-LOSS)的技术。它可以选择那些最能减少模型泛化损失的点进行训练。

下图是Clothing-1M数据集的测试结果，通过RHO-LOSS选择的数据会比标准统一数据选择（standard uniform data selection，也就是shuffle）的数据集更快让模型达到收敛结果。图中细的蓝色线条使标准数据选择下ResNet-50、MobileNet v2、DenseNet121、Inception v3、GoogleNet的训练过程，而橙色是通过RHO-LOSS选择数据的训练过程。可以看到，明显会更快达到收敛。

<center>![](https://www.datalearner.com/resources/blog_images/123cc3da-6589-4897-9bc3-02a85ea4dc61.png)</center>
<center></center>

作者认为，现在的大模型都是用网络爬取的数据训练模型。但是这些数据中包含两类数据，并不会对训练过程有益。一种是噪音数据，即爬取的数据中有错误标注或者标注模糊的数据。实验证明，这种数据会严重降低性能。另一类数据就是异常值（outliers），这种数据非常难以训练，即拥有一些特殊特征的数据，且基本不会在测试集中出现的数据。

为了克服这两类数据对训练过程的影响。作者提出了RHO-LOSS，一个基于概率模型的选择函数，该函数量化了如果我们在未见过的数据上进行训练的话，每个点会减少多少损失，而实际上并没有对它进行训练。结果表明，减少保持损失的最佳点是无噪音、无冗余和与任务相关的。为了近似优化选择，作者推导出一个高效且易于实现的选择函数：即the reducible holdout loss。

作者做了大量的实验，证明这种方法可以显著加快训练的速度。重要的是，作者将代码已经开源到GitHub上了。大家可以去下载使用。作者的代码是基于PyTorch Lightning实现的。并且有Notebook的代码演示。

大家可以去围观：https://github.com/oatml/rho-loss

最新的Reducible Holdout Loss Selection可以让你的模型训练步骤减少18倍！

论文名：Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt

发布时间：2022-6-14

论文地址：https://arxiv.org/abs/2206.07137

代码地址：https://github.com/oatml/rho-loss