QUICK REVIEW

[論文レビュー] Variational Dropout Sparsifies Deep Neural Networks

Dmitry Molchanov, Arsenii Ashukha|arXiv (Cornell University)|Jan 19, 2017

Advanced Neural Network Applications参考文献 31被引用数 348

ひとこと要約

この論文は Variational Dropout を拡張し、各重みに対するドロップアウト率を可能にし、Additive Noise Reparameterization と KL-divergence の厳密近似を導入して積極的なスパース化を可能にし、LeNet および VGG に類似したネットワークで精度のほとんど低下を伴わない最先端のスパース性を実証します。

ABSTRACT

We explore a recently proposed Variational Dropout technique that provided an elegant Bayesian interpretation to Gaussian Dropout. We extend Variational Dropout to the case when dropout rates are unbounded, propose a way to reduce the variance of the gradient estimator and report first experimental results with individual dropout rates per weight. Interestingly, it leads to extremely sparse solutions both in fully-connected and convolutional layers. This effect is similar to automatic relevance determination effect in empirical Bayes but has a number of advantages. We reduce the number of parameters up to 280 times on LeNet architectures and up to 68 times on VGG-like networks with a negligible decrease of accuracy.

研究の動機と目的

深層ニューラルネットワークにおけるスパース性を誘発するためのベイズ正則化の動機付けと活用。
DNN において Automatic Relevance Determination (ARD) を実現するために、境界のないドロップアウト率を可能にする Variational Dropout の拡張。
スパース後方分布を訓練するための低分散勾配推定量と厳密な KL-divergence 近似の開発。
Fully-connected 層と畳み込み層の両方で Sparse Variational Dropout が極端なスパース性を達成し、ほとんどの精度低下を伴わないことを示す。

提案手法

α が各重みのドロップアウト率である variational posterior q(W|θ,α) を用いて重みをモデリングする（p = α/(1+α)）。
逐次ノイズを置換する Additive Noise Reparameterization を用いて乗算ノイズを加法ノイズに置換し、勾配分散を低減する。
勾配分散をさらに低減させるために Local Reparameterization Trick を適用する。
大きなドロップアウト率を用いて訓練を可能にするために、全 α 領域にわたる KL ダイバージェンス項の厳密に類似した近似を提供する。
Fully-connected および畳み込み層における Sparse Variational Dropout の層ごとの式を導出・適用（畳み込み層の定式化を含む）。
安定したスパース化のためのウォームアップ戦略を伴い、SGVB による確率的変分推論でネットワークを訓練し、Adam で最適化する。

実験結果

リサーチクエスチョン

RQ1 variational inference によって学習された重みごとのドロップアウト率が、精度の大幅な低下を伴わずにスパースなニューラルネットワークを生み出すか？
RQ2 KL-divergence の厳密な近似は、ドロップアウト率が無制限の場合の安定した訓練を可能にするか？
RQ3 Additive Noise Reparameterization は Sparse Variational Dropout における勾配分散と収束にどのような影響を与えるか？
RQ4Fully-connected および畳み込みアーキテクチャ（例：LeNet、VGG-like、CIFAR）は Sparse Variational Dropout で高いスパース性を達成しつつ性能を維持できるか？

主な発見

Sparse Variational Dropout は Fully-connected 層と畳み込み層の両方で非常にスパースなモデルを生み出す。
この手法は LeNet アーキテクチャで最先端のスパース性を達成し、VGG のような大規模ネットワークへ拡張しても精度低下はごく小さい。
重みごとのドロップアウト率は Empirical Bayes のリスクなしに ARD のようなスパース性を実現する。
Additive Noise Reparameterization と Local Reparameterization Trick は勾配分散を大幅に低減し、収束を速める。
Sparse Variational Dropout を用いて訓練されたネットワークはランダムラベルでの過学習に耐性があり、良い一般化挙動を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。