QUICK REVIEW

[论文解读] Combating noisy labels by agreement: A joint training method with co-regularization

Hongxin Wei, Lei Feng|arXiv (Cornell University)|Mar 5, 2020

Machine Learning and Data Classification参考文献 44被引用 67

一句话总结

JoCoR 使用联合损失训练两个网络，联合损失将监督学习与共正则化相结合以最大化一致性，使用小损失选择，并在 MNIST、CIFAR 和 Clothing1M 上对噪声标签显示出更强的鲁棒性。

ABSTRACT

Deep Learning with noisy labels is a practically challenging problem in weakly supervised learning. The state-of-the-art approaches "Decoupling" and "Co-teaching+" claim that the "disagreement" strategy is crucial for alleviating the problem of learning with noisy labels. In this paper, we start from a different perspective and propose a robust learning paradigm called JoCoR, which aims to reduce the diversity of two networks during training. Specifically, we first use two networks to make predictions on the same mini-batch data and calculate a joint loss with Co-Regularization for each training example. Then we select small-loss examples to update the parameters of both two networks simultaneously. Trained by the joint loss, these two networks would be more and more similar due to the effect of Co-Regularization. Extensive experimental results on corrupted data from benchmark datasets including MNIST, CIFAR-10, CIFAR-100 and Clothing1M demonstrate that JoCoR is superior to many state-of-the-art approaches for learning with noisy labels.

研究动机与目标

在监督深度学习中，当训练标签存在噪声时，激励鲁棒学习。
提出一种通过共正则化减少两个分类器之间差异的联合训练范式。
证明基于一致性的正则化加上小损失样本选择能够提升基准噪声标签数据集的性能。
展示消融实验以分离共正则化和联合训练的影响。

提出的方法

两个具有不同初始化的网络通过一个将监督损失与共正则化项结合在一起的单一损失函数进行联合训练。
监督损失是两个网络在给定标签（可能有噪声）上的交叉熵损失之和。
共正则化实现为两个网络预测分布之间的对称 KL 散度（JS 散度替代）。
在批次上通过选择联合损失最小的一部分样本来进行小损失选择。
保留的小损失样本比例 R(t) 会在训练轮次中按计划变化，以减轻对噪声数据的过拟合。
训练遵循伪萨伊姆斯范式，即两个网络共同更新，而非通过跨网更新。
在 MNIST、CIFAR-10、CIFAR-100 以及 Clothing1M 上对合成和真实世界噪声标签进行评估。

实验结果

研究问题

RQ1两个分类器之间基于一致性的正则化是否可以消除在带有噪声标签的训练中对不一致更新的需求？
RQ2与现有基于不一致的方法相比，带共正则化的联合训练是否提高了对噪声标签的鲁棒性？
RQ3在由强制网络协作的联合损失引导下，小损失样本选择的效果有多显著？
RQ4在标签精度和测试准确率方面，消融共正则化与消融联合训练的影响是什么？

主要发现

JoCoR 在 MNIST、CIFAR-10、CIFAR-100 和 Clothing1M 上，在多种噪声情形下实现高于多种最先进基线的测试准确率。
该方法在小批量中获得更高的标签精确度，表明在训练过程中对干净样本的选择更有效。
消融研究表明，共正则化和联合训练对性能均有显著贡献，其中共正则化防止对噪声标签的记忆。
与 Co-teaching 和 Co-teaching+ 相比，随着噪声增加，JoCoR 维持或提升性能，包括最困难的对称和非对称噪声设置。
该方法在合成噪声和真实世界噪声标签下保持鲁棒性，展示出强泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。