[论文解读] Learning Noise Transition Matrix from Only Noisy Labels via Total Variation Regularization
该论文提出了一种新颖方法,仅使用噪声标签即可同时估计噪声转移矩阵并训练分类器,无需依赖不可靠的噪声类别后验估计。通过利用总变差正则化以促进可区分的预测概率,该方法在温和假设下实现了稳定的转移矩阵估计,在基准数据集和真实世界数据集上均优于现有基线方法。
Many weakly supervised classification methods employ a noise transition matrix to capture the class-conditional label corruption. To estimate the transition matrix from noisy data, existing methods often need to estimate the noisy class-posterior, which could be unreliable due to the overconfidence of neural networks. In this work, we propose a theoretically grounded method that can estimate the noise transition matrix and learn a classifier simultaneously, without relying on the error-prone noisy class-posterior estimation. Concretely, inspired by the characteristics of the stochastic label corruption process, we propose total variation regularization, which encourages the predicted probabilities to be more distinguishable from each other. Under mild assumptions, the proposed method yields a consistent estimator of the transition matrix. We show the effectiveness of the proposed method through experiments on benchmark and real-world datasets.
研究动机与目标
- 解决在仅提供噪声标签时,多分类中噪声转移矩阵估计的挑战。
- 消除对易出错的噪声类别后验估计的依赖,后者在深度神经网络中易导致过度自信。
- 开发一个统一框架,联合估计转移矩阵并从噪声数据中训练分类器。
- 在温和假设下(包括锚点存在性)确保转移矩阵估计器的理论一致性。
- 通过正则化预测概率以增强可区分性,提升弱监督学习中的泛化能力和鲁棒性。
提出的方法
- 引入总变差正则化,以促进预测类别概率之间的可区分性,利用转移矩阵在总变差距离下的压缩性质。
- 使用神经网络预测干净类别后验 $\bm{p}(Y|X)$,同时通过狄利克雷后验建模转移矩阵 $\bm{T}$,并利用训练过程中混淆矩阵更新浓度参数。
- 采用联合学习目标,结合交叉熵损失用于分类,以及对预测概率的成对总变差正则化项,以促进 $\bm{T}$ 的可识别性。
- 基于总变差距离对等价转移矩阵施加偏序关系,假设存在锚点时,选择“最干净”的 $\bm{p}$ 作为最优解。
- 采用两模块架构:一个用于类别概率预测,另一个用于使用狄利克雷分布和混淆矩阵统计量的自适应转移矩阵估计。
- 使用带动量的随机梯度下降,并根据噪声结构的先验知识初始化转移矩阵或浓度参数。
实验结果
研究问题
- RQ1能否在不依赖噪声类别后验估计的前提下,仅从噪声标签中一致地估计噪声转移矩阵?
- RQ2如何利用标签污染过程的固有结构,从观测等价模型中识别出真实的转移矩阵?
- RQ3何种正则化策略可确保预测类别概率具有足够的可区分性,以实现一致的转移矩阵估计?
- RQ4能否设计一种统一的训练过程,联合估计转移矩阵并训练鲁棒分类器,而无需干净标签或锚点检测?
- RQ5与现有两步法相比,总变差正则化是否能带来更好的泛化性能和更准确的转移矩阵估计?
主要发现
- 所提方法在基准数据集上实现了最先进测试准确率,优于现有基线方法(如Forward、T-Revision、Dual-T和CCE),在Clothing1M数据集上的平均准确率达到71.65%。
- 在大多数设置中,转移矩阵估计的平均总变差误差显著低于基线方法,表明对真实噪声结构的恢复更加准确。
- 在Clothing1M真实世界数据集上,该方法实现了71.65%的测试准确率,证明了其在无干净验证数据的大规模实际噪声学习场景中的有效性。
- 估计的转移矩阵揭示了语义上有意义的误分类模式,例如视觉上相似的类别更可能被混淆,表明其具有可解释性和现实相关性。
- 尽管计算成本低于此类方法,该方法在准确率和矩阵估计误差上仍优于两步法(如Dual-T)。
- 理论分析表明,在温和假设(包括锚点存在性)下,所提方法可得到噪声转移矩阵的一致估计器。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。