QUICK REVIEW

[論文レビュー] Compressibility and Generalization in Large-Scale Deep Learning.

Wenda Zhou, Victor Veitch|arXiv (Cornell University)|Jan 1, 2018

Machine Learning and Algorithms被引用数 12

ひとこと要約

この論文は、情報理論的原則を用いて、圧縮されたネットワークサイズに基づく一般化境界を導出することで、深層学習におけるモデル圧縮と一般化の理論的関係を確立する。ImageNetで訓練されたような大規模モデルに対し、非自明な一般化保証を初めて得ることができ、一般化誤差によって圧縮可能性が根本的に制限されることを示している。過学習が進むと、モデルを記述するために必要なビット数が増加する。

ABSTRACT

Modern neural networks are highly overparameterized, with capacity to substantially overfit to training data. Nevertheless, these networks often generalize well in practice. It has also been observed that trained networks can often be to much smaller representations. The purpose of this paper is to connect these two empirical observations. Our main technical result is a generalization bound for compressed networks based on the compressed size. Combined with off-the-shelf compression algorithms, the bound leads to state of the art generalization guarantees; in particular, we provide the first non-vacuous generalization guarantees for realistic architectures applied to the ImageNet classification problem. As additional evidence connecting compression and generalization, we show that compressibility of models that tend to overfit is limited: We establish an absolute limit on expected compressibility as a function of expected generalization error, where the expectations are over the random choice of training examples. The bounds are complemented by empirical results that show an increase in overfitting implies an increase in the number of bits required to describe a trained network.

研究の動機と目的

過パラメータ化された深層ニューラルネットワークにおけるモデル圧縮可能性と一般化の理論的関係を確立すること。
元のモデル容量ではなく、圧縮されたモデルのサイズに依存する一般化境界を導出すること。
期待される一般化誤差の関数として、圧縮可能性の絶対的上限を確立すること。
過学習と圧縮可能性の逆関係を実験的に検証すること。

提案手法

情報理論的原則を用いて、圧縮されたネットワークのサイズに依存する一般化境界を導出する。
実際のモデルに市販の圧縮アルゴリズム（例：プルーニング、量子化）を適用し、圧縮後のサイズを測定する。
一般化境界における代理変数として圧縮サイズを用い、最先端の非自明な保証を達成する。
理論的分析により、圧縮可能性は期待される一般化誤差によって下限から制限され、過学習が進行すると最小記述長が増加することを示す。
一般化誤差と訓練済みモデルを記述するのに必要なビット数との間の情報理論的関係を定式化する。

実験結果

リサーチクエスチョン

RQ1モデル圧縮を用いて、大規模な深層ネットワークのためのよりタイトで非自明な一般化境界を導出できるか？
RQ2モデルの一般化性能に基づいて、その圧縮可能性に根本的な限界があるか？
RQ3過学習が進むと、モデルを記述するために必要なビット数が増加する（圧縮コストが上昇する）と予想されるか？
RQ4実用的設定（例：ImageNet）において、圧縮に基づく境界は従来の一般化境界を上回るか？

主な発見

本論文は、圧縮に基づく分析を用いて、現実的かつ実用的なImageNetモデルに対する初めての非自明な一般化境界を達成した。
圧縮可能性は一般化誤差によって根本的に制限される：一般化誤差が大きいほど、モデルを記述するために必要なビット数の下限が高くなる。
実験的結果により、過学習しやすいモデルはより多くのビット数を要することが確認され、過学習と圧縮可能性の低下の間の理論的関係を支持する。
圧縮サイズから導出された一般化境界は、従来の境界を上回り、大規模ネットワークに対して最先端の保証を提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。