Skip to main content
QUICK REVIEW

[论文解读] Non-Vacuous Generalization Bounds at the ImageNet Scale: A PAC-Bayesian Compression Approach

Wenda Zhou, Victor Veitch|arXiv (Cornell University)|Apr 16, 2018
Domain Adaptation and Few-Shot Learning参考文献 23被引用 81
一句话总结

该论文通过将压缩大小与泛化相关联,得到对现实神经网络非空泛化的PAC-Bayes界限;在使用现成压缩方法的情况下,对ImageNet尺度模型首次给出非空泛化界限。

ABSTRACT

Modern neural networks are highly overparameterized, with capacity to substantially overfit to training data. Nevertheless, these networks often generalize well in practice. It has also been observed that trained networks can often be "compressed" to much smaller representations. The purpose of this paper is to connect these two empirical observations. Our main technical result is a generalization bound for compressed networks based on the compressed size. Combined with off-the-shelf compression algorithms, the bound leads to state of the art generalization guarantees; in particular, we provide the first non-vacuous generalization guarantees for realistic architectures applied to the ImageNet classification problem. As additional evidence connecting compression and generalization, we show that compressibility of models that tend to overfit is limited: We establish an absolute limit on expected compressibility as a function of expected generalization error, where the expectations are over the random choice of training examples. The bounds are complemented by empirical results that show an increase in overfitting implies an increase in the number of bits required to describe a trained network.

研究动机与目标

  • 激发深度学习中神经网络可压缩性与泛化之间的关系。
  • 提出一个将显式压缩模型大小作为复杂度项的PAC-Bayes界限。
  • 证明使用标准压缩方案在实际架构上可获得非空泛化保证。
  • 表明过拟合对可压缩性有界限并且有经验支持。
  • 提供使用现有压缩工具将该界限应用于真实网络的实用指南。

提出的方法

  • 将基于压缩推导的码长嵌入到PAC-Bayes界限中,以将泛化与有效压缩大小相关联。
  • 在压缩后的模型上使用点质量的PAC-Bayes后验,并用可计算的先验计算KL散度。
  • 通过一个结构化压缩输出(S, C, Q)及对非零元素的随机高斯扰动,扩展界限来考虑权重扰动的鲁棒性。
  • 推导一个包含编码大小和扰动鲁棒性项的界限(定理4.3)。
  • 将该界限应用到对MNIST(LeNet-5)及ImageNet规模网络的剪枝与量化实验(以及前向传播中的噪声增强)。
  • 论证该界限与各种压缩方案兼容,并且在紧密界限下不需要重新训练。

实验结果

研究问题

  • RQ1是否可以通过显式考虑已训练网络的压缩大小来收紧PAC-Bayes界限?
  • RQ2标准压缩技术是否能在现代架构(包括ImageNet尺度模型)上产生非空泛化界限?
  • RQ3在实践中,过拟合与神经网络的可压缩性之间是否存在可检测的关系?
  • RQ4对权重扰动的鲁棒性如何与基于压缩的泛化界限相互作用?

主要发现

  • 基于压缩大小的界限为现实网络提供了最前沿、非空泛化保证。
  • 通过将压缩与PAC-Bayes理论结合,在ImageNet尺度模型上实现了非空界限。
  • 有经验证据表明,在固定压缩方案下,过拟合程度越高,可压缩性越差。
  • 高度过拟合的模型的可压缩性有限,并且可以引入对权重扰动的鲁棒性以改进界限。
  • 在MNIST和ImageNet尺度网络上的实验显示了有效的压缩大小,从而得到有意义的误差界限。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。