QUICK REVIEW

[论文解读] SIGUA: Forgetting May Make Learning with Noisy Labels More Robust

Bo Han, Gang Niu|arXiv (Cornell University)|Sep 28, 2018

Machine Learning and Data Classification被引用 64

一句话总结

SIGUA 在小批量内将对可能干净数据的梯度下降与对嘈杂数据的梯度上升结合起来，能够忘记不期望的记忆并提升对带有噪声标签的鲁棒性，跨越基础学习方法。

ABSTRACT

Given data with noisy labels, over-parameterized deep networks can gradually memorize the data, and fit everything in the end. Although equipped with corrections for noisy labels, many learning methods in this area still suffer overfitting due to undesired memorization. In this paper, to relieve this issue, we propose stochastic integrated gradient underweighted ascent (SIGUA): in a mini-batch, we adopt gradient descent on good data as usual, and learning-rate-reduced gradient ascent on bad data; the proposal is a versatile approach where data goodness or badness is w.r.t. desired or undesired memorization given a base learning method. Technically, SIGUA pulls optimization back for generalization when their goals conflict with each other; philosophically, SIGUA shows forgetting undesired memorization can reinforce desired memorization. Experiments demonstrate that SIGUA successfully robustifies two typical base learning methods, so that their performance is often significantly improved.

研究动机与目标

在参数过多的深度网络中学习带噪声标签的挑战的动机。
引入 SIGUA 作为一个在训练中对好数据与坏数据的平衡的随机集成梯度的下行弱化上升。
展示 SIGUA 如何与现有的基础学习方法结合以在标签噪声下提升泛化。
提供理论与实证洞见，说明为何忘记不期望的记忆可以强化期望记忆。

提出的方法

定义一个基础学习算法 B，以及其前向与反向传播。
在每个小批量中计算损失；使用 C_good 与 C_bad 将数据相对于基础方法来分类为好数据或坏数据。
对好数据的损失进行正向累计，对坏数据的损失按因子 gamma 进行降权以实现对坏数据的梯度上升。
将修正后的损失在批次上取平均，然后进行反向传播并执行优化步骤。
提供计算效率高的形式，包括由 C_good 与 C_bad 的掩码对损失进行向量化加权的版本。
展示 SIGUA 如何把 StopGrad（gamma=0）和全上升（gamma=1）作为特殊情况纳入。
将 SIGUA 应用于自我教导（样本选择）与反向校正（损失校正）以展示其多样性。

实验结果

研究问题

RQ1我们如何在不牺牲记忆干净数据能力的前提下对带噪声标签的训练进行正则化？
RQ2通过对某些数据进行梯度上升实现选择性忘记是否能在标签噪声下提升泛化？
RQ3SIGUA 如何与现有的带噪声标签学习策略（如自我教导和反向校正）互动并改进？
RQ4在常见带噪声标签场景中，对好/坏数据条件的实际实例化有哪些？
RQ5在执行混合下降/上升更新时，是否加入一个降权参数 gamma 可以稳定优化？

主要发现

与标准训练和基线带噪声标签方法相比，SIGUA 在带噪声标签设置下对 MNIST 与 CIFAR-10 的鲁棒性显著提升。
在 MNIST 的对称标签噪声80%情形下，SIGUA 能实现对翻转标签的几乎完全忘记，使测试准确率从 23% 提升至 95%。
在 CIFAR-10 的开放集噪声40%条件下，SIGUA–BC 取得的平均测试准确率高于标准 BC 与 nnBC，且 SIGUA–SL 在多种噪声条件下也优于自我教导。
SIGUA 将 StopGrad 与全梯度上升作为特殊情况，并且降权参数 gamma 在对坏数据进行上升时稳定优化。
该框架已被证明能够提升自我教导（样本选择）与反向校正（损失校正）的鲁棒性，表明在带噪声标签学习策略中的广泛适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。