Skip to main content
QUICK REVIEW

[論文レビュー] Non-Vacuous Generalization Bounds at the ImageNet Scale: A PAC-Bayesian Compression Approach

Wenda Zhou, Victor Veitch|arXiv (Cornell University)|Apr 16, 2018
Domain Adaptation and Few-Shot Learning参考文献 23被引用数 81
ひとこと要約

この論文は、現実的なニューラルネットワークに対して非自明なPAC-Bayes一般化境界を導出し、圧縮サイズと一般化を結びつけ、既製の圧縮法を用いて ImageNet規模のモデルで初めて非自明な境界を得た。

ABSTRACT

Modern neural networks are highly overparameterized, with capacity to substantially overfit to training data. Nevertheless, these networks often generalize well in practice. It has also been observed that trained networks can often be "compressed" to much smaller representations. The purpose of this paper is to connect these two empirical observations. Our main technical result is a generalization bound for compressed networks based on the compressed size. Combined with off-the-shelf compression algorithms, the bound leads to state of the art generalization guarantees; in particular, we provide the first non-vacuous generalization guarantees for realistic architectures applied to the ImageNet classification problem. As additional evidence connecting compression and generalization, we show that compressibility of models that tend to overfit is limited: We establish an absolute limit on expected compressibility as a function of expected generalization error, where the expectations are over the random choice of training examples. The bounds are complemented by empirical results that show an increase in overfitting implies an increase in the number of bits required to describe a trained network.

研究の動機と目的

  • 深層学習におけるニューラルネットワークの圧縮性と一般化の関連性を動機づける。
  • 明示的な圧縮モデルサイズを複雑さ項として取り込んだ PAC-Bayes 境界を開発する。
  • 標準的な圧縮方式を用いることで実践的なアーキテクチャに対して非自明な一般化保証を得られることを示す。
  • 過学習が圧縮性に制限を課し、実証的な裏付けを持つことを示す。
  • 既存の圧縮ツールを用いて実ネットワークに境界を適用する実践的な指針を提供する。

提案手法

  • 圧縮由来のコード長を PAC-Bayes 境界に埋め込み、実効圧縮サイズと一般化を関連づける。
  • 圧縮モデルにおける点質量の PAC-Bayes後方分布を用い、計算可能な事前分布との KL 発散を計算する。
  • 重量摂動に対する頑健性を、非零要素上の確率的ガウス摂動を伴う構造化圧縮出力(S, C, Q)で考慮するよう境界を拡張する。
  • エンコードサイズと摂動頑健性項の両方を含む境界(定理 4.3)を導出する。
  • MNIST(LeNet-5)と ImageNet規模のネットワークで、剪定と量子化(前方パスでのノイズ増強を含む)を用いて境界を適用する。
  • 境界はさまざまな圧縮方式と整合し、厳密さのために再訓練を必要としないことを主張する。
Figure 1: Training performance after pruning at varying levels of label randomization.
Figure 1: Training performance after pruning at varying levels of label randomization.

実験結果

リサーチクエスチョン

  • RQ1訓練済みネットワークの圧縮サイズを明示的に考慮することで PAC-Bayesian 境界を引き締められるか。
  • RQ2標準的な圧縮技術は、ImageNet規模モデルを含む現代的なアーキテクチャに対して非自明な一般化境界をもたらすか。
  • RQ3現実的には過学習とニューラルネットワークの圧縮性の間に関係が detectable か。
  • RQ4重量摂動に対する頑健性は、圧縮ベースの一般化境界とどのように相互作用するか。

主な発見

DatasetOrig. sizeComp. sizeRobust. Adj.Eff. SizeError BoundTop 1Top 5
MNIST168.4 KiB8.1 KiB1.88 KiB6.23 KiB<46%NANA
ImageNet5.93 MiB452 KiB102 KiB350 KiB<96.5%<89%NA
  • 圧縮サイズに基づく境界は、現実的なネットワークに対して最先端の非自明な一般化保証をもたらす。
  • 圧縮と PAC-Bayes 理論を組み合わせることで ImageNet規模のモデルに対して非自明な境界を達成した。
  • 過学習の増加は固定の圧縮方式の下で圧縮性を悪化させる経験的証拠がある。
  • 高く過学習するモデルの圧縮性は制限されており、重量摂動への頑健性を組み込むことで境界を改善できる。
  • MNIST および ImageNet規模のネットワークでの実験は、有効な圧縮サイズが意味のある誤差境界につながることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。