[论文解读] Learning to Reweight Examples for Robust Deep Learning
本文提出一种在线元学习方法,通过使用一个小的干净验证集来学习重新加权训练样本,从而在存在类别不平衡和噪声标签时提高鲁棒性,无需额外的超参数调优。
Deep neural networks have been shown to be very powerful modeling tools for many supervised learning tasks involving complex input patterns. However, they can also easily overfit to training set biases and label noises. In addition to various regularizers, example reweighting algorithms are popular solutions to these problems, but they require careful tuning of additional hyperparameters, such as example mining schedules and regularization hyperparameters. In contrast to past reweighting methods, which typically consist of functions of the cost value of each example, in this work we propose a novel meta-learning algorithm that learns to assign weights to training examples based on their gradient directions. To determine the example weights, our method performs a meta gradient descent step on the current mini-batch example weights (which are initialized from zero) to minimize the loss on a clean unbiased validation set. Our proposed method can be easily implemented on any type of deep network, does not require any additional hyperparameter tuning, and achieves impressive performance on class imbalance and corrupted label problems where only a small amount of clean validation data is available.
研究动机与目标
- 将训练集偏差作为深度网络问题的动机并寻求鲁棒解决方案。
- 提出一个元学习框架,学习样本权重以最小化验证损失。
- 开发一个在线、无需额外超参数的重加权算法,兼容任意深度网络。
- 在具有有限干净验证数据的情况下,展示在类别不平衡和噪声标签基准上的鲁棒性提升。
提出的方法
- 提出一个两层目标,其中训练使用对损失 f_i 的权重 w,受小规模干净集合上的验证损失引导。
- 通过对验证损失的一步元梯度计算权重,得到非负归一化权重。
- 通过自动微分实现该方法,进行向后向前传以获得关于每个样本权重的梯度。
- 对每个批次的权重归一化,使它们之和为一,确保稳定的有效学习率。
- 给出收敛性保证,显示在温和假设下该方法收敛到验证损失的一个临界点。
- 证明可适用于任何深度结构(多层感知器/卷积神经网络),并讨论由于额外的前向/后向传递带来的计算开销(约3倍)。
实验结果
研究问题
- RQ1是否可以通过一个小规模干净验证集引导的在线梯度重加权训练样本,从而提高对标签噪声和类别不平衡的鲁棒性?
- RQ2提议的元学习重加权算法是否收敛到验证目标,以及其收敛行为如何?
- RQ3与现有的重加权与正则化技术相比,该方法在具有不平衡数据和噪声标签的标准基准测试中的表现如何?
- RQ4在常见架构(MLP/CNN)下是否无需额外超参数调优即可实际使用?
- RQ5干净验证集大小对性能和正则化的影响是什么?
主要发现
- 在有限干净验证数据的情况下,该方法在类别不平衡和噪声标签问题上均表现出鲁棒性提升。
- 在 MNIST 4-9 不平衡实验中,该方法在不平衡比率下显著优于基线,包括极端的200:1。
- 在 CIFAR 的 UniformFlip 和 BackgroundFlip 噪声下,该方法相对于基线和先进竞争对手达到较高的性能,尤其在有任何可用干净验证数据时。
- 从示例权重分布可见,该算法倾向于降低对噪声或冲突样本的权重,同时提高有帮助样本的权重。
- 收敛性分析表明该方法降低验证损失,在合理条件下达到 O(1/ε^2) 速率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。