[論文レビュー] Regularizing Deep Neural Networks by Noise: Its Interpretation and Optimization
この論文は正則化をノイズ(例: ドロップアウト)を最適化することとして解釈し、各訓練例につき複数のノイズサンプルを用いて境界を引き締め、一般化を改善する Importance Weighted Stochastic Gradient Descent (IWSGD) を提案する。
Overfitting is one of the most critical challenges in deep neural networks, and there are various types of regularization methods to improve generalization performance. Injecting noises to hidden units during training, e.g., dropout, is known as a successful regularizer, but it is still not clear enough why such training techniques work well in practice and how we can maximize their benefit in the presence of two conflicting objectives---optimizing to true data distribution and preventing overfitting by regularization. This paper addresses the above issues by 1) interpreting that the conventional training methods with regularization by noise injection optimize the lower bound of the true objective and 2) proposing a technique to achieve a tighter lower bound using multiple noise samples per training example in a stochastic gradient descent iteration. We demonstrate the effectiveness of our idea in several computer vision applications.
研究の動機と目的
- ノイズベースの正則化を周辺尤度の下限を下げるという確率的解釈を提供する。
- 訓練例ごとに複数のノイズサンプルを用いた Importance Weighted Stochastic Gradient Descent (IWSGD) を導入・導出する。
- この手法をドロップアウトに特化させ、ビジョンタスクでの一般化性能の改善を実証する。
- ノイズサンプル数を増やすと境界がより引き締まり、CIFARデータセットで最先端に近い結果に到達しうることを示す。
提案手法
- ノイズを注入した隠れユニットを確率的活性化としてモデル出力を扱い、ノイズ上の周辺尤度を導出する。
- 再パラメータ化トリックを適用して目的をノイズサンプルの周辺尤度として書き換える(式3)。
- 複数のノイズサンプルを用いて周辺尤度の下界として IWSGD 目的を導出する(式4)。
- 正規化された重要度ウェイトを用いたサンプルの加重平均として勾配を計算する(式7、式8)。
- 推論時には標準的なドロップアウト風のスケーリングで推論を行い(テスト時の追加サンプリングはなし)。
- 訓練例ごとに複数のドロップアウトマスクをサンプリングして勾配寄与を重み付けすることでドロップアウトへ特化する。
実験結果
リサーチクエスチョン
- RQ1隠れユニットにノイズを注入すると真の目的の下限を最適化するのか、訓練例ごとに複数のノイズサンプルを使用してこの下限をより引き締められるか?
- RQ2複数のノイズサンプルの重要度重み付け(IWSGD)は、標準のドロップアウト訓練と比較して一般化を改善できるか?
- RQ3提案手法は既存のドロップアウトベースのモデルへ容易に統合でき、ビジョンタスク全体で性能を向上させるか?
- RQ4サンプル数を増やすと、アーキテクチャの変更を必要とせず一貫して性能が向上するか?
主な発見
- ノイズを注入した隠れユニットを確率的活性化として解釈し、標準的なドロップアウトが周辺尤度の下界を最適化することを示す。
- 複数のノイズサンプルを用いて境界を引き締めるための IWSGD(S>1)を提案・導出する。
- IWSGD を用いた複数サンプルはタスクを越えて標準ドロップアウトよりしばしば精度を改善し、Wide ResNet で CIFAR のドロップアウト率に敏感でない。
- IWSGD(S=8)を Wide ResNet に適用した CIFAR-10/100 でほぼ最先端の性能を示す。
- IWSGD は VQA、画像キャプション生成、アクション認識のベンチマークを改善し、いくつかの実験で S の増加とともに一貫したゲインを示す。
- 単に反復回数を増やすだけ(×4 回の反復)は、多サンプル IWSGD 手法を一貫して上回るとは限らない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。