QUICK REVIEW

[論文レビュー] The Implicit and Explicit Regularization Effects of Dropout

Colin Wei, Sham M. Kakade|arXiv (Cornell University)|Feb 28, 2020

Stochastic Gradient Optimization Techniques参考文献 68被引用数 27

ひとこと要約

本稿では、ドロップアウトの正則化を明示的および暗黙的効果に分解する。明示的正則化は期待損失の変更に起因し、暗黙的正則化はドロップアウトノイズに起因する確率的勾配更新に起因する。著者らは、モデルおよび損失関数の微分に基づく解析的で解釈可能な正則化項を導出し、LSTMおよびトランスフォーマー・モデルにおける複数の言語モデリングベンチマークでドロップアウトの性能と一致する。

ABSTRACT

Dropout is a widely-used regularization technique, often required to obtain state-of-the-art for a number of architectures. This work demonstrates that dropout introduces two distinct but entangled regularization effects: an explicit effect (also studied in prior work) which occurs since dropout modifies the expected training objective, and, perhaps surprisingly, an additional implicit effect from the stochasticity in the dropout training update. This implicit regularization effect is analogous to the effect of stochasticity in small mini-batch stochastic gradient descent. We disentangle these two effects through controlled experiments. We then derive analytic simplifications which characterize each effect in terms of the derivatives of the model and the loss, for deep neural networks. We demonstrate these simplified, analytic regularizers accurately capture the important aspects of dropout, showing they faithfully replace dropout in practice.

研究の動機と目的

ドロップアウトが深層ニューラルネットワークに及ぼす明示的および暗黙的正則化効果を特定・分離すること。
モデルおよび損失関数の微分を用いて、両効果の理論的特徴付けを行うこと。
実際のドロップアウトの性能を忠実に再現できる簡素化され解釈可能な正則化項を開発すること。
これらの解析的正則化項が、最先端の言語モデルにおいてドロップアウトを置き換えても性能に損なわれないことを実証的に検証すること。
特に語彙数が多い設定（例：言語モデリング）においてドロップアウトがなぜ効果的に機能するのか、新たな知見を提供すること。

提案手法

明示的正則化項を、ドロップアウト下での期待損失と通常の損失との差分として定義し、ドロップアウトが訓練目的にどのように影響を与えるかを捉える。
暗黙的正則化効果を、ドロップアウトノイズに起因する確率的勾配更新に起因するものと特定し、小バッチSGDに類似する。
損失関数およびモデル出力の2階微分を用いて、暗黙的正則化項の解析的近似を導出する。
ランダムな符号を用いた確率的近似を用いて、明示的および暗黙的効果を統合した組み合わせ正則化項を提案する。
標準的なNLPベンチマークを用いて、LSTMおよびトランスフォーマー・アーキテクチャの学習パイプラインに正則化項を実装する。
制御された実験を用いて、各正則化効果を独立して分離・検証する。

実験結果

リサーチクエスチョン

RQ1ドロップアウト学習における明示的および暗黙的正則化効果のそれぞれの寄与度は何か？
RQ2ドロップアウトの暗黙的正則化効果は、モデルおよび損失関数の微分を用いてどのように解析的に特徴付けられるか？
RQ3ドロップアウトを完全に置き換えつつ一般化性能を維持できる簡素化され解釈可能な正則化項を導出できるか？
RQ4暗黙的正則化効果はデータセットサイズやモデルアーキテクチャに依存するか？
RQ5なぜドロップアウトは語彙数が多い設定（例：言語モデリング）において特に効果的なのか？

主な発見

本稿は、ドロップアウトが明示的および暗黙的正則化効果を両方引き起こすことを示している。後者は、学習中の確率的勾配ノイズに起因する。
導出された明示的正則化項は、損失関数およびモデルの1階および2階微分に依存し、予測確率が中程度の信頼度（0または1に近くない）のものに対して最も強く正則化を施す。
暗黙的正則化項は、ランダムな符号ベクトルを用いて解析的に近似され、ドロップアウトがもたらすノイズ誘発型一般化効果を捉えている。
Penn Treebank、Wikitext-2、Wikitext-103の各データセットにおいて、組み合わせ正則化項は標準ドロップアウトと同等の検証パープレクサティ（例：Penn Treebankでは72.99 vs. 73.76）を達成した。
大規模なWikiText-103データセットでは、暗黙的正則化効果が観察されないため、これはデータセットサイズに依存するが、モデルアーキテクチャに依存しないことが示唆された。
アブレーションスタディにより、明示的正則化項が中程度確率の予測に焦点を当てるという点が、ドロップアウトの有効性において極めて重要であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。