QUICK REVIEW

[论文解读] Understanding Generalization of Deep Neural Networks Trained with Noisy Labels.

Wei Hu, Zhiyuan Li|arXiv (Cornell University)|May 27, 2019

Machine Learning and Data Classification被引用 9

一句话总结

本文提出了两种正则化方法——权重衰减向初始化和可学习的辅助输出变量——使得过参数化的深度神经网络即使在噪声标签上进行训练，也能在干净数据上实现良好的泛化性能。理论上，使用任一方法的梯度下降算法可达到与使用干净标签时相当的泛化边界，借助神经正切核（NTK）分析，实现了与网络规模无关的保证。

ABSTRACT

Over-parameterized deep neural networks trained by simple first-order methods are known to be able to fit any labeling of data. Such over-fitting ability hinders generalization when mislabeled training examples are present. On the other hand, simple regularization methods like early-stopping can often achieve highly nontrivial performance on clean test data in these scenarios, a phenomenon not theoretically understood. This paper proposes and analyzes two simple and intuitive regularization methods: (i) regularization by the distance between the network parameters to initialization, and (ii) adding a trainable auxiliary variable to the network output for each training example. Theoretically, we prove that gradient descent training with either of these two methods leads to a generalization guarantee on the clean data distribution despite being trained using noisy labels. Our generalization analysis relies on the connection between wide neural network and neural tangent kernel (NTK). The generalization bound is independent of the network size, and is comparable to the bound one can get when there is no label noise. Experimental results verify the effectiveness of these methods on noisily labeled datasets.

研究动机与目标

理解为何简单的正则化方法（如早停）在使用噪声标签训练时，能在干净数据上实现良好泛化。
填补理论空白，解释为何在噪声标签上训练的过参数化网络仍能实现良好泛化。
提出并分析正则化技术，确保在训练过程中无需使用干净标签即可实现泛化。
利用神经正切核（NTK）理论，建立与网络宽度无关的泛化边界。

提出的方法

通过网络权重与初始化点之间L2距离引入正则化，鼓励模型收敛至起始点附近的解。
在每个训练样本的网络输出中添加一个可学习的辅助变量，使模型能通过该辅助头学习忽略噪声标签。
利用神经正切核（NTK）框架分析训练动态，推导泛化边界。
证明使用任一正则化方法的梯度下降算法，即使在标签噪声存在的情况下，也能在干净数据分布上实现泛化。
推导出与网络宽度无关的泛化边界，表明对过参数化的鲁棒性。
建立正则化方法与朝向具有良好泛化性能解的隐式偏差之间的理论联系。

实验结果

研究问题

RQ1为何简单的正则化技术（如早停）在使用噪声标签训练时，能在干净测试数据上实现良好泛化？
RQ2我们能否通过正则化，理论上解释在噪声标签上训练的过参数化网络的泛化性能？
RQ3惩罚权重偏离初始化或使用辅助变量的正则化方法，是否能产生与网络规模无关的泛化边界？
RQ4神经正切核（NTK）框架如何帮助分析在标签噪声下的泛化行为？
RQ5我们能否仅使用简单且实用的正则化方法，实现与干净标签场景相当的泛化边界？

主要发现

所提出的正则化方法——权重衰减向初始化和辅助输出变量——即使在噪声标签上训练，也能实现在干净数据上的泛化。
通过NTK理论推导出的泛化边界与网络宽度无关，表明对过参数化的鲁棒性。
理论分析表明，两种方法均能实现与使用干净标签时相当的泛化保证。
实验结果证实，这些方法在标签噪声数据集上显著提升了测试准确率，验证了理论结论。
正则化机制隐式地将优化过程偏向于具有良好泛化性能的解，即使在标签被污染的情况下也成立。
NTK框架成功捕捉了在标签噪声下过参数化网络的泛化行为，使得严谨分析成为可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。