[论文解读] Robust Training under Label Noise by Over-parameterization
引入稀疏过参数化(SOP),在高参数化分类器中将稀疏标签噪声与干净数据分离,附有理论与实证支持,显示对被污染标签的鲁棒性提高。
Recently, over-parameterized deep networks, with increasingly more network parameters than training samples, have dominated the performances of modern machine learning. However, when the training data is corrupted, it has been well-known that over-parameterized networks tend to overfit and do not generalize. In this work, we propose a principled approach for robust training of over-parameterized deep networks in classification tasks where a proportion of training labels are corrupted. The main idea is yet very simple: label noise is sparse and incoherent with the network learned from clean data, so we model the noise and learn to separate it from the data. Specifically, we model the label noise via another sparse over-parameterization term, and exploit implicit algorithmic regularizations to recover and separate the underlying corruptions. Remarkably, when trained using such a simple method in practice, we demonstrate state-of-the-art test accuracy against label noise on a variety of real datasets. Furthermore, our experimental results are corroborated by theory on simplified linear models, showing that exact separation between sparse noise and low-rank data can be achieved under incoherent conditions. The work opens many interesting directions for improving over-parameterized models by using sparse over-parameterization and implicit regularization.
研究动机与目标
- 在过参数化的深度网络中,当训练标签被污染时,提出鲁棒学习的动机。
- 提出一种实用算法,在训练过程中将稀疏标签噪声与数据分离。
- 提供理论洞见,在简化的线性模型下显示出精确分离。
- 在合成和真实数据集上展示对标签噪声的经验鲁棒性。
提出的方法
- 用一个辅助稀疏项 s_i 来建模未知的标签噪声,该项分解为 s_i = u_i ⊙ u_i − v_i ⊙ v_i。
- 在网络参数 θ 和辅助变量 {u_i, v_i} 上优化联合目标,以拟合 y_i ≈ f(x_i; θ) + s_i。
- 使用梯度下降,对 (u_i, v_i) 的学习率为 ατ,θ 的学习率为 τ,以产生隐式正则化。
- 表明这会在稀疏噪声 s_i 上诱导一个 ℓ1 惩罚,与鲁棒稀疏建模相关。
- 提供具有交叉熵和均方误差损失的实现变体,并配备适当的投影以强制对 u_i, v_i 的约束。
- 在简化的过参数化线性模型上的理论分析在不相干且低秩条件下演示了稀疏噪声从数据的精确分离。
实验结果
研究问题
- RQ1当部分标签被污染时,是否可以对过参数化模型进行鲁棒训练?
- RQ2辅助稀疏过参数化项是否能够在训练过程中实现标签噪声与干净数据的分离?
- RQ3所提出的对辅助变量的梯度动态会带来哪些隐式正则化效应?
- RQ4简化线性模型的理论结果是否能解释 SOP 展现的经验鲁棒性?
主要发现
- SOP 防止对错误训练标签的过拟合,在多数据集下在标签噪声下取得更高的测试准确率。
- SOP+ 通过加入一致性和类别平衡正则化进一步提升性能。
- 经验结果显示 SOP 和 SOP+ 在 CIFAR-10/100 上对比多种基线在合成和现实标签噪声下,以及 Clothing-1M 和 WebVision 上的表现优于基线。
- 对简化线性模型的理论分析表明,在不相干性和低秩数据假设下,梯度动态能够在存在稀疏破坏时恢复真实参数,并对噪声具有 ℓ1 正则化效应。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。