QUICK REVIEW

[論文レビュー] On the Inductive Bias of Dropout

David P. Helmbold, Philip M. Long|arXiv (Cornell University)|Dec 15, 2014

Stochastic Gradient Optimization Techniques参考文献 16被引用数 18

ひとこと要約

この論文は線形分類におけるドロップアウトを正則化として理論的分析し、スパースで高マグニチュードの重みを持つモデルを好む非凸なインダクティブバイアスを誘発することを示している。L2正則化とは異なり、ドロップアウトのペナルティは非単調的かつ非凸的であり、レアな特徴の優先度を高め、重みの共適応をより明確に制約する。

ABSTRACT

Dropout is a simple but effective technique for learning in neural networks and other settings. A sound theoretical understanding of dropout is needed to determine when dropout should be applied and how to use it most effectively. In this paper we continue the exploration of dropout as a regularizer pioneered by Wager, et.al. We focus on linear classification where a convex proxy to the misclassification loss (i.e. the logistic loss used in logistic regression) is minimized. We show: (a) when the dropout-regularized criterion has a unique minimizer, (b) when the dropout-regularization penalty goes to infinity with the weights, and when it remains bounded, (c) that the dropout regularization can be non-monotonic as individual weights increase from 0, and (d) that the dropout regularization penalty may not be convex. This last point is particularly surprising because the combination of dropout regularization with any convex loss proxy is always a convex function. In order to contrast dropout regularization with $L_2$ regularization, we formalize the notion of when different sources are more compatible with different regularizers. We then exhibit distributions that are provably more compatible with dropout regularization than $L_2$ regularization, and vice versa. These sources provide additional insight into how the inductive biases of dropout and $L_2$ regularization differ. We provide some similar results for $L_1$ regularization.

研究の動機と目的

ドロップアウトの線形分類におけるインダクティブバイアスを理解すること、特にトレーニング中にモデルの好みをどのように形作るかを明らかにすること。
異なるデータ分布と整合性を持つ度合いの観点から、ドロップアウト正則化とL2およびL1正則化を形式的に比較すること。
重みが増加するに従って、ドロップアウト正則化ペナルティが凸か、単調か、あるいは有界かを調査すること。
ドロップアウトが特定のデータ分布においてL2正則化を上回る可能性がある理論的根拠を提供すること。

提案手法

各特徴が確率qでゼロに設定され、それ以外の場合は1/(1-q)にスケーリングされる、入力特徴の確率的摂動としてドロップアウトを形式化する。
摂動された入力分布下での期待ロジスティック損失としてドロップアウト基準を導出し、標準損失と正則化項 reg_D,q(w) に分解する。
reg_D,q(w) の性質、特に凸性、単調性、および個々の重みがゼロから増加する際の挙動を分析する。
ドロップアウト正則化がL2正則化よりも優れている点を明確に示すために、特定のデータ分布を構築する。
高次元設定における正則化ペナルティの挙動を分析するために、集中不等式およびBerry-Esseenの不等式を用いる。
サンプリング効果を抽象化し、アルゴリズムのインダクティブバイアスに焦点を当てるため、バイアス-バリアンス分解フレームワークを採用する。

実験結果

リサーチクエスチョン

RQ1ドロップアウト正則化は、L2およびL1正則化と比較して、どのようにインダクティブバイアスの観点から異なるか？
RQ2重みが増加するに従って、ドロップアウト正則化ペナルティは凸か、単調か、あるいは有界か？
RQ3どのようなデータ分布において、ドロップアウト正則化はL2正則化よりも明確に相性が良いと証明できるか？
RQ4ドロップアウト確率は、正則化の強度と性質にどのように影響を与えるか？
RQ5なぜドロップアウトはL2正則化よりも、まれな特徴を好むようになり、重みの共適応をより効果的に制限するのか？

主な発見

全体の目的関数が凸であっても、ドロップアウト正則化ペナルティ reg_D,q(w) は非凸であることが判明し、非凸なインダクティブバイアスが存在することが明らかになった。
個々の重みがゼロから増加する際、ペナルティが非単調的であることが判明した。つまり、重みを増加させると初期段階ではペナルティが減少することがある。
特定の条件下ではペナルティが重みとともに無限大に発散するが、データ分布の性質によっては有界のまま保たれる場合もある。
ドロップアウト正則化よりもL2正則化と相性が良いデータ分布、および逆にL2正則化よりもドロップアウト正則化と相性が良いデータ分布が存在し、両者の異なるインダクティブバイアスを示している。
ドロップアウトはL1正則化よりも、単一の特徴に非常に大きな重みを割り当てるモデルを強く好む。
理論的分析により、ドロップアウトのインダクティブバイアスが、特にまれな特徴を伴う高次元設定において、スパースで高マグニチュードの重みを持つモデルを好む傾向を生じることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。