[论文解读] Are Anchor Points Really Indispensable in Label-Noise Learning?
本论文提出了一种 T-Revision 方法,在不依赖锚点的情况下学习并修正标签噪声转移矩阵,从而提高在标签噪声下的分类器一致性。
In label-noise learning, extit{noise transition matrix}, denoting the probabilities that clean labels flip into noisy labels, plays a central role in building extit{statistically consistent classifiers}. Existing theories have shown that the transition matrix can be learned by exploiting extit{anchor points} (i.e., data points that belong to a specific class almost surely). However, when there are no anchor points, the transition matrix will be poorly learned, and those current consistent classifiers will significantly degenerate. In this paper, without employing anchor points, we propose a extit{transition-revision} ($T$-Revision) method to effectively learn transition matrices, leading to better classifiers. Specifically, to learn a transition matrix, we first initialize it by exploiting data points that are similar to anchor points, having high extit{noisy class posterior probabilities}. Then, we modify the initialized matrix by adding a extit{slack variable}, which can be learned and validated together with the classifier by using noisy data. Empirical results on benchmark-simulated and real-world label-noise datasets demonstrate that without using exact anchor points, the proposed method is superior to the state-of-the-art label-noise learning methods.
研究动机与目标
- 动机并解决在真实数据中往往缺乏锚点以学习标签噪声学习中的转移矩阵的局限性。
- 开发一种避免先前方法中固有的矩阵求逆的风险一致性估计量。
- 提供一个两阶段训练程序,与分类器共同初始化并修订转移矩阵。
- 在合成和真实世界的噪声数据集上 Demonstrate 改善分类准确率。
- 为所提出的学习框架提供理论上的泛化洞见。
提出的方法
- 引入一个不需要对齐清洁后验分布和有噪声后验分布之间的矩阵逆的风险一致性估计量。
- 使用具有高估计噪声后验的实例作为代理锚点来初始化转移矩阵 T_hat。
- 引入一个 slack 矩阵 Delta T 以修订 T_hat(形成 T_hat + Delta T),并通过优化加权的、风险一致性损失与分类器共同学习。
- 使用重要性重加权将清洁数据风险表示为噪声数据的函数,而不依赖转移矩阵的逆。
- 采用两阶段训练程序:阶段 1 估计 P(barY|X) 并初始化 T_hat;阶段 2 通过加权损失学习 f 和 Delta T。
- 在标准深度网络假设下为所提出的估计量给出泛化界。
实验结果
研究问题
- RQ1在训练过程中通过修订转移矩阵,是否可以在没有精确锚点的情况下实现标签噪声学习的统计一致性?
- RQ2不依赖矩阵逆的风险一致性估计量是否能有效调优转移矩阵并在有噪声标签下改善分类器性能?
- RQ3在合成数据和真实世界的噪声数据上,所提出的 T-Revision 方法与依赖锚点的方法及其他基线相比有何差异?
- RQ4对于使用所 proposed 的估计量训练的分类器,其泛化有哪些保障或界限?
主要发现
- T-Revision 方法通过更新学习得到的转移矩阵并使用学习到的 Slack Delta T,在依赖锚点的最先进方法之上表现出更优的分类性能。
- 所提出的无需矩阵逆的风险一致性估计量展示了利用有噪声数据和有噪声验证集有效调优转移矩阵的能力。
- 在 MNIST、CIFAR-10、CIFAR-100 和 Clothing1M 上的实证结果表明,在不同噪声水平和真实世界噪声下,该方法优于基线方法。
- 两阶段训练程序提供了一种实用且计算高效的方式来修订转移矩阵,而无需清洁数据。
- 为所提出的基于深度网络的估计量确立了理论泛化界,支持其在样本量增大时的可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。