[论文解读] Robust Inference via Generative Classifiers for Handling Noisy Labels
RoG 在预训练的判别模型之上,使用最小协方差行列式(MCD)来处理噪声标签,无需重新训练原始网络即可提高准确性,并且可以在层之间进行集成。
Large-scale datasets may contain significant proportions of noisy (incorrect) class labels, and it is well-known that modern deep neural networks (DNNs) poorly generalize from such noisy training datasets. To mitigate the issue, we propose a novel inference method, termed Robust Generative classifier (RoG), applicable to any discriminative (e.g., softmax) neural classifier pre-trained on noisy datasets. In particular, we induce a generative classifier on top of hidden feature spaces of the pre-trained DNNs, for obtaining a more robust decision boundary. By estimating the parameters of generative classifier using the minimum covariance determinant estimator, we significantly improve the classification accuracy with neither re-training of the deep model nor changing its architectures. With the assumption of Gaussian distribution for features, we prove that RoG generalizes better than baselines under noisy labels. Finally, we propose the ensemble version of RoG to improve its performance by investigating the layer-wise characteristics of DNNs. Our extensive experimental results demonstrate the superiority of RoG given different learning models optimized by several training techniques to handle diverse scenarios of noisy labels.
研究动机与目标
- 在训练数据存在噪声标签时,推动鲁棒泛化。
- 提出 RoG,在预训练的判别模型上通过一个生成模型分类器进行后处理。
- 展示基于 MCD 的估计在有噪声时提升鲁棒性和泛化能力。
- 证明跨多个层对 RoG 进行集成以进一步提升性能。
- 证明与各种用于噪声标签的训练技术兼容。
提出的方法
- 在预训练的倒数第二层特征 f(x) 上诱导一个生成分类器,假设类条件高斯分布且共用协方差(LDA)。
- 使用鲁棒的最小协方差行列式(MCD)估计类别均值 mu_c 和共享协方差 Sigma,而非简单样本估计。
- 通过贝叶斯公式计算后验 P(y=c|f(x)),其中 P(f(x)|y=c)=N(f(x)|mu_c, Sigma) 且 P(y=c) 为先验 beta_c。
- 给出近似的 MCD 求解器(Algorithm 1)并将按类的协方差合并为一个全局的 tied Sigma。
- 提出一个集成变体,将 RoG 后验在低级特征和层之间聚合,权重通过验证 NLL 学习。
- 证明 RoG 的兼容性,作为可辅助现有噪声标签训练策略的推理方法。
实验结果
研究问题
- RQ1在不重新训练的情况下,将鲁棒生成分类器应用于预训练判别模型之上的推理阶段,是否能在有噪声标签的情形下提升性能?
- RQ2在标签噪声下,基于 MCD 的参数估计是否比朴素样本估计带来更好的泛化和鲁棒性?
- RQ3在不同层/特征空间上对 RoG 进行集成是否能带来额外的性能提升?
- RQ4RoG 如何与现有的噪声标签训练方法以及半干净数据设置相互作用?
- RQ5RoG 是否在视觉与自然语言处理任务中,对各种噪声类型(均匀、翻转、语义、开放集)都有效?
主要发现
| 模型 | 推理方法 | 集成 | 干净 | Uniform (20%) | Uniform (40%) | Uniform (60%) |
|---|---|---|---|---|---|---|
| DenseNet | 生成式 + MCD(ours) | ✓ | 94.18 | 87.41 | 81.83 | 75.45 |
| DenseNet | 生成式 + 样本 | - | 93.97 | 87.40 | 81.27 | 69.81 |
| Softmax | Softmax | - | 94.11 | 81.01 | 72.34 | 55.42 |
- 在 CIFAR-10/100、SVHN 和 NLP 任务中,当训练数据存在均匀、翻转、语义或开放集噪声时,使用带 MCD 估计的 RoG 在测试准确性上优于 softmax。
- 在 CIFAR-10 的均匀噪声条件下,带 MCD 的 RoG 比 softmax 与非 MCD 生成分类器取得更高准确性,且通过跨层集成放大收益。
- 跨低层和高层特征对 RoG 进行集成可进一步提升,特别是低层 RoG 对高噪声比例更鲁棒。
- 将 RoG 与最先进的噪声标签训练方法(如 Han 等 2018b 或 Co-teaching)结合时,持续提升性能,常在测试设定中取得最佳结果。
- 开放集和语义噪声标签下,RoG 提供与 softmax 相当或更好的性能,在许多配置下有显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。