QUICK REVIEW

[論文レビュー] On Convergence and Generalization of Dropout Training

Poorya Mianjy, Raman Arora|arXiv (Cornell University)|Jan 1, 2020

Neural Networks and Applications被引用数 6

ひとこと要約

この論文は、やや過パラメータ化された条件下での2層ReLUネットワークにおけるドロップアウト訓練を分析し、ロジスティック損失とマージン分離可能なデータ分布の下で、ドロップアウトが $\epsilon$-部分最適なテスト誤差に $O(1/\epsilon)$ イテレーションで収束することを示している。主な貢献は、カーネルに基づく分離仮定の下でドロップアウトの一般化保証を確立することにある。

ABSTRACT

We study dropout in two-layer neural networks with rectified linear unit (ReLU) activations. Under mild overparametrization and assuming that the limiting kernel can separate the data distribution with a positive margin, we show that dropout training with logistic loss achieves $\epsilon$-suboptimality in test error in $O(1/\epsilon)$ iterations.

研究の動機と目的

過パラメータ化された2層ReLUニューラルネットワークにおけるドロップアウト訓練の収束性と一般化行動を理解すること。
極限カーネルを用いたやや過パラメータ化とデータ分離性の下で、テスト誤差収束に関する理論的保証を確立すること。
ドロップアウト訓練がロジスティック損失を用いて、カーネル領域における正のマージンが存在する状況でどのように一般化を達成するかを分析すること。
実用的なドロップアウト訓練と過パラメータ化設定における理論的収束のギャップを埋めること。

提案手法

データサイズに応じて隠れユニット数が増加するやや過パラメータ化された2層ReLUネットワークを分析する。
無限幅におけるネットワークの極限カーネルを用いて一般化性能を特徴付ける。
極限カーネルがデータ分布を正のマージンで分離可能であると仮定し、カーネル空間における線形分離性を保証する。
出力層にロジスティック損失を適用し、この設定下でのテスト誤差の収束速度を導出する。
カーネル法と一般化理論の技術を用いて、イテレーション回数の観点からテスト誤差の上限を求める。
提示された仮定の下で、$\epsilon$-部分最適なテスト誤差が $O(1/\epsilon)$ イテレーションで達成されることを確立する。

実験結果

リサーチクエスチョン

RQ1過パラメータ化された2層ReLUネットワークにおけるドロップアウト訓練は、低テスト誤差に収束するか？その収束速度は？
RQ2極限カーネルは、ドロップアウトにおける一般化をどのように実現するか？
RQ3カーネル空間における正のマージンがドロップアウト訓練の高速収束を保証できるか？
RQ4ロジスティック損失は、ドロップアウトと組み合わせてどのように過パラメータ化領域での一般化を保証するか？
RQ5テスト誤差収束の依存関係は、所望の部分最適性レベル $\epsilon$ にどのように依存するか？

主な発見

やや過パラメータ化の下で、ロジスティック損失を用いたドロップアウト訓練は、$\epsilon$-部分最適なテスト誤差を $O(1/\epsilon)$ イテレーションで達成する。
極限カーネルがデータ分布を正のマージンで分離可能である場合、収束速度が保証される。
この結果は、ドロップアウトとロジスティック損失を用いて訓練された2層ReLUネットワークに特有のものである。
分析はカーネル領域に依存しており、安定なカーネル近似を保証する十分な過パラメータ化を仮定する。
一般化は明示的な正則化ではなく、カーネルと学習ダイナミクスの暗黙的なインダクティブバイアスによって達成される。
理論的枠組みにより、ドロップアウト訓練がカーネル法と結びつき、分離性の仮定の下で収束保証が得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。