Skip to main content
QUICK REVIEW

[论文解读] Symmetric Cross Entropy for Robust Learning with Noisy Labels

Yisen Wang, Xingjun Ma|arXiv (Cornell University)|Aug 16, 2019
Machine Learning and Data Classification参考文献 7被引用 129
一句话总结

通过将 Cross Entropy (CE) 与 Reverse Cross Entropy (RCE) 相结合,引入对称交叉熵(SCE),在带噪声标签的情况下对 DNN 进行鲁棒训练,解决对难类的欠学习和对噪声的过拟合。

ABSTRACT

Training accurate deep neural networks (DNNs) in the presence of noisy labels is an important and challenging task. Though a number of approaches have been proposed for learning with noisy labels, many open issues remain. In this paper, we show that DNN learning with Cross Entropy (CE) exhibits overfitting to noisy labels on some classes ("easy" classes), but more surprisingly, it also suffers from significant under learning on some other classes ("hard" classes). Intuitively, CE requires an extra term to facilitate learning of hard classes, and more importantly, this term should be noise tolerant, so as to avoid overfitting to noisy labels. Inspired by the symmetric KL-divergence, we propose the approach of extbf{Symmetric cross entropy Learning} (SL), boosting CE symmetrically with a noise robust counterpart Reverse Cross Entropy (RCE). Our proposed SL approach simultaneously addresses both the under learning and overfitting problem of CE in the presence of noisy labels. We provide a theoretical analysis of SL and also empirically show, on a range of benchmark and real-world datasets, that SL outperforms state-of-the-art methods. We also show that SL can be easily incorporated into existing methods in order to further enhance their performance.

研究动机与目标

  • 研究标准 Cross Entropy (CE) 为什么在带噪声标签时过拟合并对难类欠学习。
  • 开发对标签噪声鲁棒且促进难类学习的损失函数。
  • 从理论上分析所提出的对称学习框架并通过实证验证其有效性。
  • 证明将 SCE 与现有方法结合在不会引入复杂结构改动的情况下提升鲁棒性。

提出的方法

  • 将对称交叉熵(SCE)定义为 CE 加上 Reverse Cross Entropy (RCE)。
  • 将 SL 损失形式化为加权组合:ell_sl = alpha * ell_ce + beta * ell_rce。
  • 在 q(k|x) 为零时,对 RCE 的对数项使用截断替代(A)以实现稳定化。
  • 证明在对称/均匀标签噪声以及在某些非对称/类别相关的噪声条件下,RCE 具有噪声容忍性。
  • 给出梯度分析,展示 RCE 如何加速难类学习并抑制易类的过拟合。

实验结果

研究问题

  • RQ1在带噪声标签时,CE 的类别层级学习动力学表现为何?
  • RQ2CE 与对噪声容忍损失的对称组合是否能同时提升难类学习和对噪声的鲁棒性?
  • RQ3在多类别设置中,所提的 RCE 项的理论保证(噪声容忍性)是什么?
  • RQ4在基准测试中,SL 与最先进的带噪声标签方法相比如何?
  • RQ5SL 能否整合到现有方法中以进一步提升性能?

主要发现

  • 在带噪声标签下,SL 相比 CE 和 LSR 提升了对难类的逐类学习。
  • RCE 在对称/均匀噪声以及在某些非对称噪声条件下具有理论上的噪声容忍性。
  • SL 在不同噪声率下,跨 MNIST、CIFAR-10、CIFAR-100 对多种基线方法(Forward、Bootstrap、GCE、D2L、LSR、CE)的准确率均更高。
  • A 与 alpha/beta 参数控制鲁棒性和收敛性;通过将 RCE 项整合到其他方法中,SL 可进一步扩展。
  • 消融研究表明,结合 CE 和 RCE 比单独缩放任一项更有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。