[论文解读] Simple and Effective Regularization Methods for Training on Noisily Labeled Data with Generalization Guarantee
本文提出两种简单的正则化技术(初始化距离和逐样本辅助变量),用于在有噪声标签的数据上进行训练,并证明它们在 NTK 基础的核岭回归中具有泛化保证,且在 MNIST 和 CIFAR-10 上有实验支持。
Over-parameterized deep neural networks trained by simple first-order methods are known to be able to fit any labeling of data. Such over-fitting ability hinders generalization when mislabeled training examples are present. On the other hand, simple regularization methods like early-stopping can often achieve highly nontrivial performance on clean test data in these scenarios, a phenomenon not theoretically understood. This paper proposes and analyzes two simple and intuitive regularization methods: (i) regularization by the distance between the network parameters to initialization, and (ii) adding a trainable auxiliary variable to the network output for each training example. Theoretically, we prove that gradient descent training with either of these two methods leads to a generalization guarantee on the clean data distribution despite being trained using noisy labels. Our generalization analysis relies on the connection between wide neural network and neural tangent kernel (NTK). The generalization bound is independent of the network size, and is comparable to the bound one can get when there is no label noise. Experimental results verify the effectiveness of these methods on noisily labeled datasets.
研究动机与目标
- 在带有噪声标签的数据上训练过参网络时,激发对正则化的需求。
- 提出两种简单的正则化方法,以限制对噪声标签的过拟合。
- 通过 NTK 框架为宽网络建立理论上的泛化保证。
- 给出实证证据,表明所提方法在带有噪声标签的数据上可达到或超过早停方法的效果。
提出的方法
- 通过初始化距离的正则化(RDI)在损失中添加惩罚项 lambda^2/2 * ||theta - theta(0)||^2。
- 辅助变量(AUX)方法引入逐样本可训练变量 b_i,并使用 f(theta, x_i) + lambda*b_i 来拟合每个噪声标签。
- 在宽网络(NTK)范围内,两种方法得到带有 NTK 的核岭回归解:f*(x) = k(x, X)^T (k(X, X) + lambda^2 I)^{-1} tilde_y。
- 等价性:对正则化目标的梯度下降所得到的动力学与线性化的 NTK 回归相同。
- 扩展到多输出设置时,显示每个输出遵循相应的 NTK 岭回归形式。
- 理论分析依赖于 NTK 近似 f(theta, x) ≈ f(theta(0), x) + phi(x)^T (theta - theta(0)),以及小初始化。
实验结果
研究问题
- RQ1简单的正则化方案是否能在超参数化网络中防止对噪声标签的过拟合?
- RQ2RDI 和 AUX 正则化是否在带有噪声训练标签的情况下,对干净数据分布产生泛化保证?
- RQ3这些方法与宽网络中的 NTK 与核岭回归有何关系?
- RQ4与在带有噪声标签的数据上进行早停相比,所提方法在实际中是否有效?
- RQ5结果是否可推广到多类分类和更深的网络?
主要发现
- 在宽网络情况下,RDI 和 AUX 正则化都将梯度下降引导到带有 NTK 的核岭回归。
- 对干净数据分布的泛化界与无标签噪声时的界相当,并且依赖于(未观测的)干净标签。
- 在 MNIST 和 CIFAR-10 的多种标签噪声水平下,RDI 和 AUX 在测试准确度上达到或优于早停。
- 训练过程中的权重更新幅度被正则化方法降低,与 NTK 区域的预期一致。
- AUX 在高噪声下的 CIFAR-10 上表现强劲,在 MSE 和交叉熵损失下均达到具有竞争力的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。