Skip to main content
QUICK REVIEW

[论文解读] Deterministic PAC-Bayesian generalization bounds for deep networks via generalizing noise-resilience

Vaishnavh Nagarajan, J. Zico Kolter|arXiv (Cornell University)|May 30, 2019
Advanced Neural Network Applications被引用 45
一句话总结

本文提出一个通用的 PAC-Bayesian 框架,利用深度网络的抗噪声能力来推导原始确定性、未压缩网络的泛化界限,应用于深度 ReLU 网络,并避免来自谱范数乘积的深度爆炸。

ABSTRACT

The ability of overparameterized deep networks to generalize well has been linked to the fact that stochastic gradient descent (SGD) finds solutions that lie in flat, wide minima in the training loss -- minima where the output of the network is resilient to small random noise added to its parameters. So far this observation has been used to provide generalization guarantees only for neural networks whose parameters are either extit{stochastic} or extit{compressed}. In this work, we present a general PAC-Bayesian framework that leverages this observation to provide a bound on the original network learned -- a network that is deterministic and uncompressed. What enables us to do this is a key novelty in our approach: our framework allows us to show that if on training data, the interactions between the weight matrices satisfy certain conditions that imply a wide training loss minimum, these conditions themselves {\em generalize} to the interactions between the matrices on test data, thereby implying a wide test loss minimum. We then apply our general framework in a setup where we assume that the pre-activation values of the network are not too small (although we assume this only on the training data). In this setup, we provide a generalization guarantee for the original (deterministic, uncompressed) network, that does not scale with product of the spectral norms of the weight matrices -- a guarantee that would not have been possible with prior approaches.

研究动机与目标

  • 理解为何过参数化的深度网络能泛化良好,以及 SGD 如何找到宽广、抗噪声的极小值。
  • 开发一个 PAC-Bayesian 框架,使用训练时的抗噪声性为确定性、未压缩网络提供泛化界限。
  • 将该框架具体化到深度 ReLU 网络,以避免谱范数的指数级深度依赖。
  • 量化权衡并识别界限中的瓶颈(特别是前置激活值的大小)。
  • 提供在 PAC-Bayesian 设置下,训练时属性如何推广到测试数据的洞见。

提出的方法

  • 引入具有输入依赖性的权重性质,以捕捉在给定输入下的抗噪声性。
  • 定义一系列条件(ρ_r,l)和边际 ∆⋆_{r,l},这些在训练数据上必须成立。
  • 施加一个 if-then 约束(方程(2)),确保在高斯权重噪声下的扰动对于满足前述条件的输入保持可控。
  • 演示如何将对随机网络的 PAC-Bayes 界限转化为对确定性网络的界限(定理 C.1)。
  • 专门化到深度 ReLU 网络;推导一个基于边距的泛化界限,不随谱范数乘积缩放(定理 4.1)。
  • 将前激活幅度识别为界限的瓶颈项(Bpreact),其值越小界限越大;并讨论实际缓解方法(如忽略少量数据或单元)。

实验结果

研究问题

  • RQ1训练时的抗噪声性属性能否从训练推广到测试数据?
  • RQ2是否可以推导出适用于原始确定性网络的 PAC-Bayes 界限,而不是随机/压缩版本?
  • RQ3结果界限是否避免了通常的谱范数乘积的指数深度依赖?
  • RQ4在实际中,哪些因素(例如前激活幅度)决定界限的紧密度?
  • RQ5理论界限在像 MNIST 这样的标准数据集上,随着网络深度和宽度的变化,经验表现如何?

主要发现

  • 一个通用的 PAC-Bayesian 框架,可以利用训练时的抗噪声性来界定确定性、未压缩网络的测试损失。
  • 对于 ReLU 网络,界限不随谱范数乘积缩放,而是依赖于权重矩阵与训练时属性之间的相互作用。
  • 界限与深度相关,但增长速率较小(大约 1.57^D),相比之前的界限(大约 2.15^D)。
  • 主要瓶颈是最小训练前激活 Magnitude 的倒数(Bpreact);若许多前激活很小,可能很大,但缓解方法(如忽略离群值)可以显著降低它。
  • 实证讨论表明,大多数项较小(大约 10^2 级),而 Bpreact 可能主导,指出实践中的一个具体改进方向。
  • 框架通过关注输入相关属性,而非最坏情况谱范数乘积,提供对大网络的非空泛保证路径。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。