[论文解读] Dimensionality-Driven Learning with Noisy Labels
本文提出维度驱动学习(D2L),它利用局部本征维度(LID)在训练过程中监控子空间维度,并据此调整损失以抵抗标签噪声,从而在多个数据集上实现鲁棒泛化。
Datasets with significant proportions of noisy (incorrect) class labels present challenges for training accurate Deep Neural Networks (DNNs). We propose a new perspective for understanding DNN generalization for such datasets, by investigating the dimensionality of the deep representation subspace of training samples. We show that from a dimensionality perspective, DNNs exhibit quite distinctive learning styles when trained with clean labels versus when trained with a proportion of noisy labels. Based on this finding, we develop a new dimensionality-driven learning strategy, which monitors the dimensionality of subspaces during training and adapts the loss function accordingly. We empirically demonstrate that our approach is highly tolerant to significant proportions of noisy labels, and can effectively learn low-dimensional local subspaces that capture the data distribution.
研究动机与目标
- 从局部子空间维度的角度激发并理解在标签噪声下深层表示如何演变。
- 量化在使用干净标签与有噪标签的训练过程中,Local Intrinsic Dimensionality (LID) 如何变化。
- 提出基于维度压缩与扩张之间转折点的 Dimensionality-Driven Learning (D2L),以调整标签和损失。
- 证明在大量标签噪声下,D2L 能产生低维且数据准确的表示以及更简单的假设。
- 在 MNIST、SVHN、CIFAR-10 和 CIFAR-100 上提供经验验证,显示对高噪声水平的鲁棒性。
提出的方法
- 采用 Local Intrinsic Dimensionality (LID) 来衡量深度表示空间中局部子空间的维度。
- 在有噪标签下识别出两阶段学习模式:初始维度压缩随后维度扩张。
- 引入自适应标签混合(y* = α_i y + (1−α_i) ŷ),其中 α_i 是基于 LID 的衰减因子,用于抑制对有噪标签的过拟合。
- 使用当前 LID 相对于历史最小值的指数函数来计算 α_i,从而实现基于转折点的从标准交叉熵切换到修正损失。
- 定义一个损失 L,使用修正后的标签来训练网络,实际充当由 LID 指导的损失修正机制。
- 提供一个实用算法(Algorithm 1),在训练过程中按批次估计 LID,计算开销极小(大约占训练时间的 1-2%)。
- 通过在 MNIST、SVHN、CIFAR-10 和 CIFAR-100 上的实验验证 D2L,并与 Backward、Forward、Boot-hard、Boot-soft 及标准 Cross-Entropy 方法进行比较。
实验结果
研究问题
- RQ1在使用干净标签与有噪标签的训练中,深度表示的局部本征维数如何演变?
- RQ2是否可以利用 LID 来检测在带标签噪的数据集训练中维度压缩到扩张的转变?
- RQ3在标准基准测试中,受显著标签噪声影响时,由 LID 指导的损失修正策略是否能提高泛化?
- RQ4相比现有有噪声标签方法,D2L 在表示质量和假设简单性方面具有哪些经验性提升?
主要发现
| Dataset / Noise Rate | cross-entropy | forward | backward | boot-hard | boot-soft | D2L |
|---|---|---|---|---|---|---|
| MNIST 0% | 99.24 ±0.0 | 99.30 ±0.0 | 99.23 ±0.1 | 99.13 ±0.2 | 99.20 ±0.0 | 99.28 ±0.0 |
| MNIST 20% | 88.02 ±0.1 | 96.45 ±0.1 | 90.12 ±0.1 | 87.69 ±0.2 | 88.50 ±0.1 | 98.84 ±0.1 |
| MNIST 40% | 68.46 ±0.1 | 94.90 ±0.1 | 70.89 ±0.1 | 69.49 ±0.2 | 70.19 ±0.2 | 98.49 ±0.1 |
| MNIST 60% | 45.51 ±0.2 | 82.88 ±0.1 | 52.83 ±0.2 | 50.45 ±0.1 | 46.04 ±0.1 | 94.73 ±0.2 |
| SVHN 0% | 90.12 ±0.0 | 90.22 ±0.1 | 90.16 ±0.1 | 89.47 ±0.0 | 89.26 ±0.0 | 90.32 ±0.0 |
| SVHN 20% | 79.10 ±0.1 | 85.51 ±0.1 | 79.61 ±0.2 | 81.21 ±0.1 | 79.26 ±0.2 | 87.63 ±0.1 |
| SVHN 40% | 62.92 ±0.1 | 79.09 ±0.2 | 64.15 ±0.1 | 63.25 ±0.2 | 64.30 ±0.2 | 82.68 ±0.1 |
| SVHN 60% | 38.54 ±0.2 | 62.57 ±0.2 | 53.14 ±0.1 | 47.61 ±0.2 | 39.21 ±0.2 | 80.92 ±0.2 |
| CIFAR-10 0% | 89.31 ±0.1 | 90.27 ±0.1 | 89.03 ±0.2 | 89.06 ±0.3 | 89.46 ±0.2 | 89.41 ±0.2 |
| CIFAR-10 20% | 81.52 ±0.1 | 84.61 ±0.3 | 79.41 ±0.1 | 81.19 ±0.4 | 79.21 ±0.2 | 85.13 ±0.2 |
| CIFAR-10 40% | 73.51 ±0.3 | 82.84 ±0.2 | 74.69 ±0.2 | 76.67 ±0.2 | 73.81 ±0.1 | 83.36 ±0.3 |
| CIFAR-10 60% | 67.03 ±0.3 | 72.41 ±0.4 | 45.42 ±0.4 | 70.57 ±0.3 | 68.12 ±0.2 | 72.84 ±0.3 |
| CIFAR-100 0% | 68.20 ±0.2 | 68.54 ±0.3 | 68.48 ±0.3 | 68.31 ±0.2 | 67.89 ±0.2 | 68.60 ±0.3 |
| CIFAR-100 20% | 52.88 ±0.2 | 60.25 ±0.2 | 58.74 ±0.3 | 58.49 ±0.4 | 57.32 ±0.3 | 62.20 ±0.4 |
| CIFAR-100 40% | 42.85 ±0.2 | 51.27 ±0.3 | 45.42 ±0.2 | 44.41 ±0.1 | 41.87 ±0.1 | 52.01 ±0.3 |
| CIFAR-100 60% | 30.09 ±0.2 | 41.22 ±0.3 | 34.49 ±0.2 | 36.65 ±0.3 | 32.29 ±0.1 | 42.27 ±0.2 |
- D2L 在高标签噪声下稳定测试准确度,超过多数据集上的最先进基线方法。
- D2L 学习到更低维度的局部子空间,更好地捕捉真实数据分布,从而提升泛化能力。
- 假设复杂度(用 CSR 衡量)对 D2L 低于竞争方法,指示更平滑的决策边界。
- 可视化(t-SNE)显示 D2L 在表示空间中获得更清晰的类别分离和对噪声样本的更好隔离。
- D2L 在 MNIST、SVHN、CIFAR-10 和 CIFAR-100 上表现出鲁棒性,随着噪声率增加(0%–60%),准确率下降更小。
- 在 CIFAR-10 的 LID 估计中,该方法对关键超参数 k(邻居数)和 m(批次数)相对不敏感。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。