[论文解读] IMAE for Noise-Robust Learning: Mean Absolute Error Does Not Treat Examples Equally and Gradient Magnitude's Variance Matters
这篇论文分析 MAE 的鲁棒性与欠拟合问题,随后提出 IMAE,即对 MAE 梯度幅值进行指数加权以调整梯度方差,在提高学习效果的同时保持对噪声的鲁棒性。
In this work, we study robust deep learning against abnormal training data from the perspective of example weighting built in empirical loss functions, i.e., gradient magnitude with respect to logits, an angle that is not thoroughly studied so far. Consequently, we have two key findings: (1) Mean Absolute Error (MAE) Does Not Treat Examples Equally. We present new observations and insightful analysis about MAE, which is theoretically proved to be noise-robust. First, we reveal its underfitting problem in practice. Second, we analyse that MAE's noise-robustness is from emphasising on uncertain examples instead of treating training samples equally, as claimed in prior work. (2) The Variance of Gradient Magnitude Matters. We propose an effective and simple solution to enhance MAE's fitting ability while preserving its noise-robustness. Without changing MAE's overall weighting scheme, i.e., what examples get higher weights, we simply change its weighting variance non-linearly so that the impact ratio between two examples are adjusted. Our solution is termed Improved MAE (IMAE). We prove IMAE's effectiveness using extensive experiments: image classification under clean labels, synthetic label noise, and real-world unknown noise.
研究动机与目标
- 激励在异常训练数据下进行鲁棒深度学习,并审查 MAE 与 CCE 如何通过梯度幅值对样本进行加权。
- 揭示 MAE 因梯度幅值方差较低而欠拟合,并且梯度方差对学习有意义的模式很重要。
- 提出改进的 MAE (IMAE),在不改变 MAE 总体加权方案的前提下,对梯度幅值方差进行非线性调整。
- 展示 IMAE 在清洁标签、合成标签噪声以及真实未知噪声情景中的有效性。
提出的方法
- 分析对 logits 的梯度以解释 CCE、MAE 和 IMAE 中对样本的加权。
- 推导 CCE 和 MAE 下每个样本梯度幅值的闭式表达。
- 通过将 MAE 关于 logits 的梯度乘以一个指数权重 w_IMAE(x) = exp(T p_y (1-p_y)) 来引入 IMAE,其中 p_y 是真实类别的预测概率。
- 表明 IMAE 的反向传播梯度相对于 MAE 的梯度按 w_IMAE/w_MAE 放大,从而在保持 MAE 总体加权的同时增大方差。
- 讨论 T 如何控制梯度幅值方差以及样本之间的影响比。
- 给出在 CIFAR-10/100 和 Clothing1M 上对清洁标签与噪声标签情形的经验评估。
实验结果
研究问题
- RQ1MAE 是否对所有训练样本一视同仁,其对噪声的鲁棒性是否伴随欠拟合?
- RQ2损失函数的梯度幅值方差如何影响有意义模式的学习?
- RQ3是否可以在不牺牲对噪声鲁棒性的前提下提升 MAE 的拟合能力?
- RQ4所提出的 IMAE 是否在跨任务的合成及现实世界噪声标签下提升鲁棒性?
主要发现
- MAE 比 CCE 对噪声更鲁棒,但倾向于欠拟合干净数据点,强调不确定的(中等概率的)样本。
- MAE 梯度幅值在样本间的方差较小,导致样本间的影响比低,弱化了对有意义模式的学习。
- IMAE 通过对预测概率的指数函数对 MAE 的加权进行非线性变换,在保持 MAE 总体加权方案的同时增大梯度幅值方差。
- 经过调优的 T,IMAE 在 CIFAR-100 和 Clothing1M 数据集上,在合成对称/非对称噪声以及真实未知噪声下达到最先进的性能。
- 在 CIFAR-10 上,IMAE 展示出有竞争力或更优的混合准确率,实现高泛化与对噪声样本依赖降低之间的平衡。
- IMA E 的复杂性保持简单,仅需将 MAE 的梯度按因子 w_IMAE 进行缩放。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。