QUICK REVIEW

[論文レビュー] On the Emergence of Invariance and Disentangling in Deep Representations.

Alessandro Achille, Stefano Soatto|arXiv (Cornell University)|Jun 5, 2017

Generative Adversarial Networks and Image Synthesis参考文献 3被引用数 38

ひとこと要約

この論文は、重みの情報量と活性化の最小性を、経験的損失の情報分解を通じて結びつけることで、深層ニューラルネットワークにおける不変性が、層の積み重ねとノイズ注入によって自然に出現することを確立している。主な貢献は、重みの情報量と活性化の最小性、および全相関の間の鋭い不等式を導出し、一般化と最適化幾何学に関する長年の謎を解明することにある。

ABSTRACT

Using classical notions of statistical decision and information theory, we show that invariance in a deep neural network is equivalent to minimality of the representation it computes, and can be achieved by stacking layers and injecting noise in the computation, under realistic and empirically validated assumptions. We use an Information Decomposition of the empirical loss to show that overfitting can be reduced by limiting the information content stored in the weights. We then present a sharp inequality that relates the information content in the weights -- which are a representation of the training set and inferred by generic optimization agnostic of invariance and disentanglement -- and the minimality and total correlation of the activation functions, which are a representation of the test datum. This allows us to tackle recent puzzles concerning the generalization properties of deep networks and their relation to the geometry of the optimization residual.

研究の動機と目的

高容量にもかかわらず深層ネットワークが良好に一般化する理由を、不変性と表現最小性を結びつけることで説明すること。
深層学習における一般化と最適化残差幾何学に関する長年の謎を解明すること。
統計的意思決定理論と情報分解を用いて、不変性と分離性の出現を形式化すること。
ネットワーク重みに格納される情報量を制限することで過学習が軽減されることを示すこと。
重みの情報量、活性化の最小性、全相関の間の鋭い不等式を導出すること。

提案手法

古典的統計的意思決定理論と情報理論を用いて、表現最小性を不変性と同等とみなすモデルを構築する。
経験的損失の情報分解を適用し、重みの情報量が過学習に与える影響を分析する。
ネットワーク重み内の情報量と活性化関数の最小性および全相関の間の鋭い不等式を導入する。
ノイズ注入と層の積み重ねを、表現最小性を通じた不変性の強制に用いるメカニズムとして採用する。
導出された情報理論的関係を用いて最適化残差幾何学を分析する。
データおよびネットワーク行動に関する経験的に妥当な仮定の下で作業を行う。

実験結果

リサーチクエスチョン

RQ1深層ネットワークにおける不変性は、最適化ダイナミクスからどのように出現するのか？
RQ2重みの情報量の内容と一般化性能の正確な関係は何か？
RQ3積み重ねとノイズ注入はどのように最小表現、不変表現を生じさせるのか？
RQ4活性化における全相関は、表現の冗長性を最小化するために果たす役割は何か？
RQ5最適化残差の幾何学は、表現の不変性および分離性とどのように関係するのか？

主な発見

情報理論で定義された表現最小性と、深層ネットワークにおける不変性が正式に同等である。
訓練中にノイズを注入し、層を積み重ねることで、最小表現を促進することで不変表現が得られる。
経験的損失の分解により、ネットワーク重みに格納される情報量を制限することで過学習が軽減されることが示された。
重みの情報量と活性化の最小性、全相関の間の鋭い不等式が導出され、一般化の理論的基盤が提供された。
最適化残差の幾何学が、学習済み表現の不変性および分離性の性質と本質的に関連していることが示された。
このフレームワークにより、情報理論的表現原理と結びつけて、深層ネットワークにおける一般化に関する主要な謎が解消された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。