Skip to main content
QUICK REVIEW

[论文解读] Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach

Giorgio Patrini, Alessandro Rozza|arXiv (Cornell University)|Sep 13, 2016
Machine Learning and Data Classification参考文献 38被引用 114
一句话总结

本论文提出两种损失校正过程(向后和向前),使深度网络对类别相关的标签噪声具有鲁棒性,并给出一个噪声估计器以获取必要的转移矩阵 T,并展示在多样化架构和数据集上的有效性。

ABSTRACT

We present a theoretically grounded approach to train deep neural networks, including recurrent networks, subject to class-dependent label noise. We propose two procedures for loss correction that are agnostic to both application domain and network architecture. They simply amount to at most a matrix inversion and multiplication, provided that we know the probability of each class being corrupted into another. We further show how one can estimate these probabilities, adapting a recent technique for noise estimation to the multi-class setting, and thus providing an end-to-end framework. Extensive experiments on MNIST, IMDB, CIFAR-10, CIFAR-100 and a large scale dataset of clothing images employing a diversity of architectures --- stacking dense, convolutional, pooling, dropout, batch normalization, word embedding, LSTM and residual layers --- demonstrate the noise robustness of our proposals. Incidentally, we also prove that, when ReLU is the only non-linearity, the loss curvature is immune to class-dependent label noise.

研究动机与目标

  • 在因众包或廉价标注方式导致标签嘈杂时,激励对深度神经网络进行鲁棒训练。
  • 引入两种损失校正方法(向后和向前),利用噪声转移矩阵 T 来补偿类别相关的标签噪声。
  • 提供一个理论框架,证明在类别条件噪声下校正后的损失具有鲁棒性保证。
  • 将噪声速率估计扩展到多类别情景,以在没有真实标签的情况下实现端到端学习。
  • 在包括图像和文本任务的多样化架构和数据域上展示经验鲁棒性。

提出的方法

  • 向后校正:将校正后的损失记为 ell^{←} = T^{-1} ell,在 T 非奇异时,在有噪声标签的情况下得到无偏损失估计。
  • 向前校正:通过在适当的复合损失中用 T^{T} 变换预测来定义校正后的损失 ell^{→},在有噪声数据下保持最小值不变。
  • 证明两种校正的鲁棒性保证,表明在适当的损失下,有噪声数据的极小值点与干净数据的极小值点一致。
  • 通过从未标注或弱标注样本的网络输出中估计 T,将噪声估计扩展到多类别情景,从而实现端到端训练。
  • 证明在这些校正下,ReLU 网络的损失曲率(Hessian)对标签噪声不变,有助于优化。

实验结果

研究问题

  • RQ1在多类分类中,损失校正技术(向后和向前)是否能在类别相关的标签噪声存在时提供无偏或鲁棒的优化?
  • RQ2在没有真实标签的多类别设定中,如何估计噪声转移矩阵 T,以及这种估计对鲁棒性的影响?
  • RQ3所提出的校正是否在不同架构和领域(包括 CNN、RNN、LSTM 和残差网络)中保持理论鲁棒性保证?
  • RQ4在标签噪声下使用 ReLU 激活对 Hessian 的影响是多少?
  • RQ5在含有合成和真实噪声的数据集(MNIST、CIFAR、IMDB、Clothing1M)上,修正后的损失与标准交叉熵及其他基线相比如何?

主要发现

  • 当 T 非奇异时,向后校正得到有噪声标签下的损失无偏估计,保持极小值点。
  • 对于适当的复合损失,向前校正在干净分布下保持极小值点,实际避免了显式矩阵求逆。
  • 噪声转移矩阵 T 可以从未标注数据的网络输出中估计,实现端到端学习而无需真实标签。
  • 对 ReLU 网络而言,损失的 Hessian 与标签噪声无关,意味着曲率相关的优化性质在校正下得以保持。
  • 经验结果表明,相较于未校正的损失,在 MNIST、CIFAR-10/100、IMDB、Clothing1M 上具有更强的鲁棒性,且向前校正通常优于向后校正。
  • 该方法与架构及领域无关,在密集连接网络、CNN、ResNet 和 LSTM 上得到验证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。