QUICK REVIEW

[论文解读] Unsupervised Label Noise Modeling and Loss Correction

Eric Arazo, Diego Ortego|arXiv (Cornell University)|Apr 25, 2019

Machine Learning and Data Classification被引用 198

一句话总结

该论文在每个样本的训练损失上用两组成的 Beta 混合模型来建模标签噪声，以检测干净样本与嘈杂样本，并应用动态引导损失（bootstrapping loss），可选结合 mixup，以在不需要干净数据的情况下实现鲁棒学习。

ABSTRACT

Despite being robust to small amounts of label noise, convolutional neural networks trained with stochastic gradient methods have been shown to easily fit random labels. When there are a mixture of correct and mislabelled targets, networks tend to fit the former before the latter. This suggests using a suitable two-component mixture model as an unsupervised generative model of sample loss values during training to allow online estimation of the probability that a sample is mislabelled. Specifically, we propose a beta mixture to estimate this probability and correct the loss by relying on the network prediction (the so-called bootstrapping loss). We further adapt mixup augmentation to drive our approach a step further. Experiments on CIFAR-10/100 and TinyImageNet demonstrate a robustness to label noise that substantially outperforms recent state-of-the-art. Source code is available at https://git.io/fjsvE

研究动机与目标

在不假设获取干净数据的前提下，推动在存在标签噪声的训练数据情况下实现鲁棒学习。
用无监督的基于损失的 Beta 混合模型来建模干净/嘈杂样本的归属。
开发一个受噪声模型启发的动态、逐样本损失校正（引导）的机制。
通过将 mixup 数据增强与所提出的损失校正结合来提升鲁棒性。
在 CIFAR-10/100 和 TinyImageNet 在不同噪声水平下展示最先进的性能。

提出的方法

通过对训练损失拟合两成分的 Beta 混合模型（BMM），来建模干净/嘈杂样本的似然性。
使用 EM 来估计 Beta 参数和后验 p(k|loss) 以区分干净与嘈杂组件。
推导一个动态引导损失，其中逐样本权重 w_i = p(k=1|loss_i) 来调整真实标签与模型预测的贡献。
将动态引导与 mixup 数据增强结合，创建一个混合损失，利用逐样本噪声后验对样本和标签进行加权和增强。
引入一个正则化项，防止在训练过程中收敛到单一类别。
提供一个动态 mixup 变体，根据逐样本噪声估计来调整混合策略，在极端标签噪声下提升收敛性。

实验结果

研究问题

RQ1一个无监督的逐样本基于损失的模型，是否能在没有任何干净子集的情况下将干净标签与嘈杂标签分离？
RQ2对样本损失的 Beta 混合模型是否能提供可靠的后验概率，在训练过程中纠正损失？
RQ3相比静态引导或标准交叉熵，动态逐样本引导是否能提升对标签噪声的鲁棒性？
RQ4将所提损失校正与 mixup 结合，是否在高噪声下比单独使用 mixup 更具鲁棒性？

主要发现

逐样本损失的 Beta 混合建模能够有效分离干净与嘈杂样本，从而实现逐样本损失校正。
动态引导（逐样本加权）在高噪声水平下（如 80% 和 90%）始终优于静态引导。
结合 mixup 的硬引导与动态权重（M-DYR-H）在 CIFAR-10 的高噪声下取得显著精度提升（如在 80% 噪声时最佳为 86.8%；在 90% 时为 40.8%），在 CIFAR-100 的最高为 12.5%（80% 噪声时最佳；90% 时在表中为 -）。
联合动态引导与 mixup（M-DYR-H/SH）显著提升了在 CIFAR-10/100 的高噪声下的鲁棒性，树立了新基线。
该方法不仅适用于 CIFAR，也适用于 TinyImageNet（MD-DYR-SH 一直优于基线 mixup）。
在 Clothing1M 上，微调预训练网络受限于无监督噪声建模，表明某些数据集特定的挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。