Skip to main content
QUICK REVIEW

[论文解读] Spectral Norm Regularization for Improving the Generalizability of Deep Learning

Yuichi Yoshida, Takeru Miyato|arXiv (Cornell University)|May 31, 2017
Neural Networks and Applications参考文献 28被引用 218
一句话总结

本文提出谱范数正则化以约束权重矩阵的谱范数,旨在减少对输入扰动的敏感性并提升泛化能力,并在多种CNN架构和数据集上得到验证。

ABSTRACT

We investigate the generalizability of deep learning based on the sensitivity to input perturbation. We hypothesize that the high sensitivity to the perturbation of data degrades the performance on it. To reduce the sensitivity to perturbation, we propose a simple and effective regularization method, referred to as spectral norm regularization, which penalizes the high spectral norm of weight matrices in neural networks. We provide supportive evidence for the abovementioned hypothesis by experimentally confirming that the models trained using spectral norm regularization exhibit better generalizability than other baseline methods.

研究动机与目标

  • 通过输入扰动敏感性来激发对泛化性的研究。
  • 提出谱范数正则化以惩罚权重矩阵的较大谱范数。
  • 表明谱范数正则化能提升泛化性和测试准确率,尤其是在大 minibatch 的情况下。
  • 将谱范数正则化与权重衰减、对抗训练和雅可比正则化进行比较。
  • 提供输入扰动敏感性与泛化性能之间关系的见解。

提出的方法

  • 将谱范数正则化公式化为最小化经验风险再加上 (lambda/2) sum_l sigma(W^l)^2。
  • 通过一次迭代幂法高效地计算谱范数的近似梯度。
  • 将正则项应用于前馈网络中的所有权重矩阵(通过将卷积层重塑为矩阵来实现)。
  • 在若干网络和数据集上使用带 Nesterov 动量的 SGD 及网格搜索的超参数。
  • 与权重衰减和对抗训练进行比较,数据集为 CIFAR-10/100 和 STL-10。

实验结果

研究问题

  • RQ1限制权重矩阵的谱范数是否能提升对未见数据的泛化?
  • RQ2谱范数正则化在测试准确度和泛化差方面,与传统正则化(权重衰减、对抗训练)相比如何?
  • RQ3对测试数据扰动的不敏感性是否是深度网络泛化性能的关键预测指标?
  • RQ4谱范数正则化对权重矩阵谱的影响是什么?
  • RQ5谱范数正则化在小批量与大批量情况下的表现如何?

主要发现

  • 谱范数正则化在若干模型中取得了最佳的测试准确度,特别是在大 minibatch 情况下。
  • 在各种模型和数据集上,谱范数正则化始终实现最小的泛化差距。
  • 相对于测试数据的梯度范数与泛化差距相关,且谱范数正则化降低对输入扰动的敏感性。
  • 使用谱范数正则化往往使权重矩阵的特征值谱变平坦,降低最大的奇异值。
  • 在使用谱范数正则化时,训练损失的最大 Hessian 特征值并不能可靠预测泛化。
  • 谱范数正则化在提升泛化的同时比纯权重衰减更好地保持了模型容量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。