最新的Reducible Holdout Loss Selection可以让你的模型训练步骤减少18倍!

标签:加速库,模型训练 时间:2022-06-17 21:53:45.841 发布者:小木

论文名:Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt
发布时间:2022-6-14
论文地址:https://arxiv.org/abs/2206.07137
代码地址:https://github.com/oatml/rho-loss

原文摘要:对网络规模的数据进行训练可能需要几个月。但是大部分的计算和时间都浪费在了已经学习过或无法学习的冗余和噪音点上。为了加速训练,我们引入了Reducible Holdout Loss Selection (RHO-LOSS),这是一种简单但有原则的技术,它可以选择那些最能减少模型泛化损失的点进行训练。因此,RHO-LOSS减轻了现有数据选择方法的弱点:来自优化文献的技术通常选择 "硬"(如高损失)的点,但这些点往往是嘈杂的(不可学习)或与任务不太相关。相反,课程学习优先考虑 "容易 "的点,但这些点一旦学会就不需要训练。相反,RHO-LOSS选择的是可学习的、值得学习的和尚未学习的点。RHO-LOSS的训练步骤比现有技术少得多,提高了准确性,并在广泛的数据集、超参数和架构(MLPs、CNNs和BERT)上加快了训练速度。在大型网络刮削图像数据集Clothing-1M上,RHO-LOSS的训练步骤减少了18倍,最终准确率比统一数据洗牌高2%。 通过www.DeepL.com/Translator(免费版)翻译