QUICK REVIEW

[论文解读] Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach

Giorgio Patrini, Alessandro Rozza|arXiv (Cornell University)|Sep 13, 2016

Machine Learning and Data Classification参考文献 38被引用 114

一句话总结

本论文提出两种损失校正过程（向后和向前），使深度网络对类别相关的标签噪声具有鲁棒性，并给出一个噪声估计器以获取必要的转移矩阵 T，并展示在多样化架构和数据集上的有效性。

ABSTRACT

We present a theoretically grounded approach to train deep neural networks, including recurrent networks, subject to class-dependent label noise. We propose two procedures for loss correction that are agnostic to both application domain and network architecture. They simply amount to at most a matrix inversion and multiplication, provided that we know the probability of each class being corrupted into another. We further show how one can estimate these probabilities, adapting a recent technique for noise estimation to the multi-class setting, and thus providing an end-to-end framework. Extensive experiments on MNIST, IMDB, CIFAR-10, CIFAR-100 and a large scale dataset of clothing images employing a diversity of architectures --- stacking dense, convolutional, pooling, dropout, batch normalization, word embedding, LSTM and residual layers --- demonstrate the noise robustness of our proposals. Incidentally, we also prove that, when ReLU is the only non-linearity, the loss curvature is immune to class-dependent label noise.

研究动机与目标

在因众包或廉价标注方式导致标签嘈杂时，激励对深度神经网络进行鲁棒训练。
引入两种损失校正方法（向后和向前），利用噪声转移矩阵 T 来补偿类别相关的标签噪声。
提供一个理论框架，证明在类别条件噪声下校正后的损失具有鲁棒性保证。
将噪声速率估计扩展到多类别情景，以在没有真实标签的情况下实现端到端学习。
在包括图像和文本任务的多样化架构和数据域上展示经验鲁棒性。

提出的方法

向后校正：将校正后的损失记为 ell^{←} = T^{-1} ell，在 T 非奇异时，在有噪声标签的情况下得到无偏损失估计。
向前校正：通过在适当的复合损失中用 T^{T} 变换预测来定义校正后的损失 ell^{→}，在有噪声数据下保持最小值不变。
证明两种校正的鲁棒性保证，表明在适当的损失下，有噪声数据的极小值点与干净数据的极小值点一致。
通过从未标注或弱标注样本的网络输出中估计 T，将噪声估计扩展到多类别情景，从而实现端到端训练。
证明在这些校正下，ReLU 网络的损失曲率（Hessian）对标签噪声不变，有助于优化。

实验结果

研究问题

RQ1在多类分类中，损失校正技术（向后和向前）是否能在类别相关的标签噪声存在时提供无偏或鲁棒的优化？
RQ2在没有真实标签的多类别设定中，如何估计噪声转移矩阵 T，以及这种估计对鲁棒性的影响？
RQ3所提出的校正是否在不同架构和领域（包括 CNN、RNN、LSTM 和残差网络）中保持理论鲁棒性保证？
RQ4在标签噪声下使用 ReLU 激活对 Hessian 的影响是多少？
RQ5在含有合成和真实噪声的数据集（MNIST、CIFAR、IMDB、Clothing1M）上，修正后的损失与标准交叉熵及其他基线相比如何？

主要发现

当 T 非奇异时，向后校正得到有噪声标签下的损失无偏估计，保持极小值点。
对于适当的复合损失，向前校正在干净分布下保持极小值点，实际避免了显式矩阵求逆。
噪声转移矩阵 T 可以从未标注数据的网络输出中估计，实现端到端学习而无需真实标签。
对 ReLU 网络而言，损失的 Hessian 与标签噪声无关，意味着曲率相关的优化性质在校正下得以保持。
经验结果表明，相较于未校正的损失，在 MNIST、CIFAR-10/100、IMDB、Clothing1M 上具有更强的鲁棒性，且向前校正通常优于向后校正。
该方法与架构及领域无关，在密集连接网络、CNN、ResNet 和 LSTM 上得到验证。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。