QUICK REVIEW

[論文レビュー] On the Implicit Bias of Dropout

Poorya Mianjy, Raman Arora|arXiv (Cornell University)|Jun 26, 2018

Stochastic Gradient Optimization Techniques被引用数 30

ひとこと要約

本稿は、単層線形ニューラルネットワークにおけるドロップアウトの暗黙的バイアスについて理論的分析を提供し、ドロップアウトが入力・出力の重みベクトルのノルムを均等化することで、暗黙的正則化を実現することを示している。ドロップアウトが経路正則化を最小化する解に収束することを証明しており、これは過パラメータ化された設定において一般化を促進する平坦で低複雑性の解を好むものである。

ABSTRACT

Algorithmic approaches endow deep learning systems with implicit bias that helps them generalize even in over-parametrized settings. In this paper, we focus on understanding such a bias induced in learning through dropout, a popular technique to avoid overfitting in deep learning. For single hidden-layer linear neural networks, we show that dropout tends to make the norm of incoming/outgoing weight vectors of all the hidden nodes equal. In addition, we provide a complete characterization of the optimization landscape induced by dropout.

研究の動機と目的

ドロップアウトが深層学習、特に過パラメータ化されたモデルに導入する暗黙的バイアスを理解すること。
単層線形ネットワークにおけるドロップアウトの最適化の様相を特徴づけること。
特に重みが束縛されたオートエンコーダーの文脈において、ドロップアウトが収束する解を特定すること。
ドロップアウトの帰納的バイアスを、既知の容量制御メカニズムである経路正則化と正式に結びつけること。
ドロップアウトが経路ノルムを最小化する解を好むことを確立し、過パラメータ化された設定における一般化を支援すること。

提案手法

勾配降下法にドロップアウトを適用する際、重みベクトルのL2ノルムの積を含む正則化された目的関数を最小化すると分析する。
暗黙の正則化子の明示的形を $ \lambda \sum_{i=1}^{r} \|\mathbf{u}_i\|^2 \|\mathbf{v}_i\|^2 $ として導出する。ここで $ \lambda = \frac{1-\theta}{\theta} $ であり、これにより経路正則化と関連づけられる。
スペクトル分解と直交変換を用いて臨界点とその安定性を分析する。
ヘッセ行列と方向微分を用いた2次分析を適用し、臨界点を厳密なサドル点または局所最小点に分類する。
ドロップアウト下でのグローバル最小点が、同じモデルのすべての因子分解の中で経路ノルム $ \psi_2(\mathbf{U}, \mathbf{V}) $ を最小化することを証明する。
重みが束縛されたオートエンコーダーにおいて、すべての局所最小点がグローバル最小点であり、隠れユニット間でノルムの均等化と経路ノルムの最小化を達成することを示す。

実験結果

リサーチクエスチョン

RQ1ドロップアウトは単層線形ネットワークにどのような暗黙的バイアスを誘導するか？
RQ2ドロップアウトの最適化の様相は、標準的な勾配降下法とどのように異なるか？
RQ3ドロップアウトは最小の経路正則化を達成する解を好むのか？もしそうなら、なぜ一般化を促進するのか？
RQ4特に重みが束縛されたオートエンコーダーの設定において、ドロップアウトのすべての局所最小点は解の質において同等か？
RQ5ドロップアウトの暗黙的バイアスを、経路正則化のような既知の正則化メカニズムと正式に結びつけられるか？

主な発見

ドロップアウトは、重みベクトルのL2ノルムの積の二乗和を最小化することで、暗黙的正則化を実現する。これは、経路正則化子の二乗を最小化することと等価である。
ドロップアウト目的関数のすべてのグローバル最小点は、$ \psi_2(\tilde{\mathbf{U}}, \tilde{\mathbf{V}}) = \min\{ \psi_2(\mathbf{U}, \mathbf{V}) \mid \mathbf{U}\mathbf{V}^T = \tilde{\mathbf{U}}\tilde{\mathbf{V}}^T \} $ を満たし、これは同等の因子分解の中で経路ノルムを最小化することを意味する。
重みが束縛されたオートエンコーダーにおいて、すべての局所最小点がグローバル最小点であり、隠れユニット間でノルムの均等化が達成される。
活性化された隠れユニットがデータ共分散行列の上位固有ベクトルに対応しない臨界点は、厳密なサドル点である。
ヘッセ行列の分析により、非最適な臨界点が非退化なサドル点であることが確認され、勾配降下法において良い解への収束が保証される。
ドロップアウトの暗黙的バイアスは、経路正則化によるサイズに依存しない容量制御と等価であり、過パラメータ化されたモデルにおけるその成功を説明する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。