QUICK REVIEW

[論文レビュー] On Fast Dropout and its Applicability to Recurrent Networks

Justin Bayer, Christian Osendorfer|arXiv (Cornell University)|Nov 4, 2013

Neural Networks and Applications参考文献 28被引用数 45

ひとこと要約

本稿では、再帰的ニューラルネットワーク（RNN）の正則化手法として、Fast Dropout（FD）を提案する。FDは、訓練誤差に基づいて動的に調整される、パラメータごとの適応的正則化子として機能し、従来のL2正則化とは異なり、重みのグローバルな吸引子を形成しない。これにより、RNNの豊かな動的挙動が保たれ、特に楽曲生成タスクにおける性能が向上し、JSBChoralesやMuseDataを含む4つのベンチマークデータセットで最先端の結果を達成した。

ABSTRACT

Recurrent Neural Networks (RNNs) are rich models for the processing of sequential data. Recent work on advancing the state of the art has been focused on the optimization or modelling of RNNs, mostly motivated by adressing the problems of the vanishing and exploding gradients. The control of overfitting has seen considerably less attention. This paper contributes to that by analyzing fast dropout, a recent regularization method for generalized linear models and neural networks from a back-propagation inspired perspective. We show that fast dropout implements a quadratic form of an adaptive, per-parameter regularizer, which rewards large weights in the light of underfitting, penalizes them for overconfident predictions and vanishes at minima of an unregularized training loss. The derivatives of that regularizer are exclusively based on the training error signal. One consequence of this is the absense of a global weight attractor, which is particularly appealing for RNNs, since the dynamics are not biased towards a certain regime. We positively test the hypothesis that this improves the performance of RNNs on four musical data sets.

研究の動機と目的

標準的なRNNでは過学習の制御が不十分であるという問題に取り組むこと、特に消失／爆発勾配問題と比較して十分に研究されていない点に焦点を当てる。
Fast Dropout—確率的ドロップアウトの滑らかで決定論的な近似—が、RNNを効果的に正則化できるか、かつその動的挙動を損なわないかを検証すること。
Fast Dropoutの勾配の数学的構造を分析し、訓練誤差信号から唯一導かれる2次的で適応的な正則化子に対応することを示すこと。
実験的に、FD-RNNが順序付きモデリングタスク、特に長期依存関係の学習において優れた性能を発揮することを検証すること。

提案手法

Fast Dropoutは、確率的ユニットのドロップアウトを、学習可能なドロップアウト率を用いた決定論的で微分可能な近似に置き換えることで適用される。
正則化された損失関数を、平均に基づく損失と分散に基づく正則化子に分解し、両者とも訓練誤差信号から導出される。
正則化子は、過信した予測（大きな重み）をペナルティ化するとともに、不足適合が生じた場合には大きな重みを奨励し、損失の最小値で消失することを示した。
正則化子の勾配は、外部の事前分布に依存せず、バックプロパゲーションで伝搬された誤差にのみ依存するため、パrameter空間にグローバルな重み吸引子を形成しない。
実験では、ベルヌーイ分布に従うピアノロール系列をモデル化するために、シグモイド出力層を備えたRNNを用い、バイナリクロスエントロピー損失を最小化した。
ハイパーパramータは、各データセットごとに32回のランダムサーチを実行し、検証誤差が最小となるモデルを選択した。

実験結果

リサーチクエスチョン

RQ1Fast Dropoutは、RNNの動的挙動を歪めることなく、効果的に正則化できるか？
RQ2Fast Dropoutの勾配は、L2やドロップアウトといった従来の正則化手法とどのように関係しているか？
RQ3Fast Dropoutは、グローバルな重み吸引子を導入しないまま、RNNの順序付きモデリングタスクにおける一般化性能を向上させられるか？
RQ4Fast Dropoutがグローバル吸引子を持たないことで、長距離依存関係タスクでの性能が向上するか？

主な発見

Fast Dropoutは、4つの楽曲生成ベンチマークで最先端のテスト損失を達成し、標準的なRNNやより複雑なモデル（例：RNN-NADE）を上回った。
JSBChoralesでは、FD-RNNがテスト損失7.92を達成し、標準RNNを上回り、より深いまたは特化したアーキテクチャに近い性能を示した。
再帰的重み行列の固有値半径は、訓練の初期に増加し、その後安定値に減少した。これは、発散を防ぎつつ長期記憶をサポートする動的な重みスケーリングを示している。
これは、通常のRNNでは観察されず、Fast Dropoutが訓練初期に重みの増大を促進し、収束時に安定化をもたらすことを示唆している。
グローバルな重み吸引子を避けることで、RNNが長期依存関係をモデル化するために不可欠な豊かな非偏りの動的挙動を保持した。
各データセットで32回のランダムサーチにとどまっているにもかかわらず、FD-RNNは一貫して低いテスト損失を達成しており、ハイパーパramータの選択に対して頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。