[论文解读] Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels
Co-teaching 同时训练两个神经网络,并通过在每个小批量中交换小损失、潜在的干净样本来互相教学,从而在极端噪声标签下实现鲁棒学习。
Deep learning with noisy labels is practically challenging, as the capacity of deep models is so high that they can totally memorize these noisy labels sooner or later during training. Nonetheless, recent studies on the memorization effects of deep neural networks show that they would first memorize training data of clean labels and then those of noisy labels. Therefore in this paper, we propose a new deep learning paradigm called Co-teaching for combating with noisy labels. Namely, we train two deep neural networks simultaneously, and let them teach each other given every mini-batch: firstly, each network feeds forward all data and selects some data of possibly clean labels; secondly, two networks communicate with each other what data in this mini-batch should be used for training; finally, each network back propagates the data selected by its peer network and updates itself. Empirical results on noisy versions of MNIST, CIFAR-10 and CIFAR-100 demonstrate that Co-teaching is much superior to the state-of-the-art methods in the robustness of trained deep models.
研究动机与目标
- 在现实世界数据中,当训练标签高度被污染时,激励鲁棒学习。
- 提出一个简单的双网络训练范式,以缓解对噪声标签的记忆化。
- 利用深度网络的记忆化动态,通过小损失采样来优先考虑干净样本。
- 在标准基准数据集的合成噪声场景中展示该方法的鲁棒性。
提出的方法
- 维持两个网络 f 和 g,分别具有参数 w_f 和 w_g,并在交叉更新的小批量 regime 中进行训练。
- 在每个小批量中,每个网络选择一部分小损失实例(R(T)% 的批量)作为潜在干净样本。
- 每个网络使用对方网络所选择的数据来更新其参数(f 由 g 的小损失集合更新;g 由 f 的小损失集合更新)。
- R(T) 是一个非递增的调度,起始接近 1,随时间衰减以丢弃更多噪声样本。
- 直觉上依赖于记忆化动态:深度网络先学习干净、简单的模式,然后逐渐记忆噪声,因此小损失样本在早期更可能是干净的。
- 两网络能够实现对潜在噪声样本的交叉筛选,相较于单一网络或仅比较分歧的方法,能够减少错误传播。
实验结果
研究问题
- RQ1两台联合训练的网络在交叉更新的小损失样本下,是否能够在极端噪声标签下实现鲁棒学习?
- RQ2应如何对小损失样本率 R(T) 进行调度,以在从干净数据学习与避免记忆噪声之间取得平衡?
- RQ3在标签严重损坏的情形下,双网络是否相对于单网络或其他基线具有优势?
主要发现
- Co-teaching 在噪声的 MNIST、CIFAR-10 和 CIFAR-100 上超越最先进的基线,在极端噪声设置下显著提高鲁棒性。
- 在 45% 噪声标签下,Co-teaching 在 MNIST、CIFAR-10 和 CIFAR-100 上的测试精度高于 MentorNet 及其他基线。
- 相较于基线,Co-teaching 的标签精度和识别干净样本的能力有所提升,表明对干净实例的识别更好。
- Co-teaching 的有效性在不同的噪声结构(如 Pair flipping 和 Symmetry flipping)下仍然存在,并且在从头训练且无预训练时仍保持强劲。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。