QUICK REVIEW

[論文レビュー] In Search of the Real Inductive Bias: On the Role of Implicit Regularization in Deep Learning

Behnam Neyshabur, Ryota Tomioka|arXiv (Cornell University)|Dec 20, 2014

Neural Networks and Applications被引用数 134

ひとこと要約

本論文は、深層学習における真の帰納的バイアスはネットワークサイズではなく、確率的勾配降下法における暗黙の$β$-ノルム正則化であると主張している。行列分解との類似性を通じて、過パラメータ化された大きなネットワークにおける重み減衰は、$β$-正則化を伴う凸ニューラルネットワークに等価であることを示し、大容量にもかかわらず一般化が成立する理由を説明している。

ABSTRACT

We present experiments demonstrating that some other form of capacity control, different from network size, plays a central role in learning multilayer feed-forward networks. We argue, partially through analogy to matrix factorization, that this is an inductive bias that can help shed light on deep learning.

研究の動機と目的

深層学習における容量制御の主な要因がネットワークサイズであるという仮定に挑戦すること。
過パラメータ化された深層ネットワークにおける一般化を可能にする真の帰納的バイアスを特定すること。
SGDにおける暗黙の正則化と凸ニューラルネットの間の理論的リンクを確立すること。
大規模なネットワークにおける暗黙の$β$-正則化が、無限幅の凸ニューラルネットにおける$β$-正則化と等価であることを示すこと。
過パラメータ化されたネットワークにおける重み減衰が、凸形式におけるグループラasso正則化に等価な解をもたらすことを示すこと。

提案手法

ネットワークサイズを段階的に増やしながら訓練誤差とテスト誤差を実験的に評価し、一般化の挙動を観察する。
深層学習と行列分解との類似性を用いて、暗黙の正則化が主要な容量制御要因であると特定する。
過パラメータ化されたネットワークにおける重み減衰と$β$-正則化の等価性を活用し、凸ニューラルネットの定式化を導出する。
大規模なネットワークにおける重み減衰の最小化が、出力層の重みに$β$-正則化を施した凸最適化問題の解法と等価であることを導出する。
重み減衰付きの2層ReLUネットワークの無限幅極限が、$β$-正則化を伴う凸ニューラルネットに収束することを示す。
大規模で重み減衰が施されたネットワークの解が、$H > n$の条件下で、グループラasso正則化を施した凸ニューラルネットと等価であることを証明する。

実験結果

リサーチクエスチョン

RQ1ネットワークサイズが一般化を決定づける要因でない場合、過パラメータ化された深層ニューラルネットワークにおける一般化はどのようなメカニズムによって実現されるのか？
RQ2SGDにおける暗黙の正則化は、凸モデルにおける明示的正則化とどのように関係しているのか？
RQ3深層学習における帰納的バイアスは、アーキテクチャの容量ではなく、ノルム正則化の一種として特徴付けられるのだろうか？
RQ4大規模で重み減衰が施された深層ネットワークと等価な凸最適化定式化は存在するのだろうか？
RQ5入力から隠れ層への重みノルムは、深層ネットワークの帰納的バイアスを決定づける役割を果たすのか？

主な発見

ネットワークサイズの増加は、ある閾値を超えると一般化性能の向上をもたらさない。これは、サイズが主な容量制御要因ではないことを示している。
大規模なネットワークにおけるSGDによる暗黙の$β$-正則化は、$β$-正則化を施した凸ニューラルネットの解と等価である。
隠れユニット数$H$が訓練サンプル数$n$を上回る場合に、この等価性が成立し、隠れユニット空間における解のスパarsityが保証される。
大規模なネットワークにおける重み減衰は、無限の隠れユニットを持つ凸ニューラルネットの出力層重みに$β$-正則化を施したものと等価である。
$β$-正則化を施した凸ニューラルネットの定式化は、大規模で重み減衰が施されたネットワークを学習させた場合と同等の一般化性能を達成する。
凸ニューラルネットの解は常に離散的であり、活性化される隠れユニットは最大で$n+1$個に制限される。これは、暗黙の正則化がスパarsityを誘導していることを確認する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。