Skip to main content
QUICK REVIEW

[論文レビュー] Variational Dropout Sparsifies Deep Neural Networks

Dmitry Molchanov, Arsenii Ashukha|arXiv (Cornell University)|Jan 19, 2017
Advanced Neural Network Applications参考文献 31被引用数 348
ひとこと要約

この論文は Variational Dropout を拡張し、各重みに対するドロップアウト率を可能にし、Additive Noise Reparameterization と KL-divergence の厳密近似を導入して積極的なスパース化を可能にし、LeNet および VGG に類似したネットワークで精度のほとんど低下を伴わない最先端のスパース性を実証します。

ABSTRACT

We explore a recently proposed Variational Dropout technique that provided an elegant Bayesian interpretation to Gaussian Dropout. We extend Variational Dropout to the case when dropout rates are unbounded, propose a way to reduce the variance of the gradient estimator and report first experimental results with individual dropout rates per weight. Interestingly, it leads to extremely sparse solutions both in fully-connected and convolutional layers. This effect is similar to automatic relevance determination effect in empirical Bayes but has a number of advantages. We reduce the number of parameters up to 280 times on LeNet architectures and up to 68 times on VGG-like networks with a negligible decrease of accuracy.

研究の動機と目的

  • 深層ニューラルネットワークにおけるスパース性を誘発するためのベイズ正則化の動機付けと活用。
  • DNN において Automatic Relevance Determination (ARD) を実現するために、境界のないドロップアウト率を可能にする Variational Dropout の拡張。
  • スパース後方分布を訓練するための低分散勾配推定量と厳密な KL-divergence 近似の開発。
  • Fully-connected 層と畳み込み層の両方で Sparse Variational Dropout が極端なスパース性を達成し、ほとんどの精度低下を伴わないことを示す。

提案手法

  • α が各重みのドロップアウト率である variational posterior q(W|θ,α) を用いて重みをモデリングする(p = α/(1+α))。
  • 逐次ノイズを置換する Additive Noise Reparameterization を用いて乗算ノイズを加法ノイズに置換し、勾配分散を低減する。
  • 勾配分散をさらに低減させるために Local Reparameterization Trick を適用する。
  • 大きなドロップアウト率を用いて訓練を可能にするために、全 α 領域にわたる KL ダイバージェンス項の厳密に類似した近似を提供する。
  • Fully-connected および畳み込み層における Sparse Variational Dropout の層ごとの式を導出・適用(畳み込み層の定式化を含む)。
  • 安定したスパース化のためのウォームアップ戦略を伴い、SGVB による確率的変分推論でネットワークを訓練し、Adam で最適化する。

実験結果

リサーチクエスチョン

  • RQ1 variational inference によって学習された重みごとのドロップアウト率が、精度の大幅な低下を伴わずにスパースなニューラルネットワークを生み出すか?
  • RQ2 KL-divergence の厳密な近似は、ドロップアウト率が無制限の場合の安定した訓練を可能にするか?
  • RQ3 Additive Noise Reparameterization は Sparse Variational Dropout における勾配分散と収束にどのような影響を与えるか?
  • RQ4Fully-connected および畳み込みアーキテクチャ(例:LeNet、VGG-like、CIFAR)は Sparse Variational Dropout で高いスパース性を達成しつつ性能を維持できるか?

主な発見

  • Sparse Variational Dropout は Fully-connected 層と畳み込み層の両方で非常にスパースなモデルを生み出す。
  • この手法は LeNet アーキテクチャで最先端のスパース性を達成し、VGG のような大規模ネットワークへ拡張しても精度低下はごく小さい。
  • 重みごとのドロップアウト率は Empirical Bayes のリスクなしに ARD のようなスパース性を実現する。
  • Additive Noise Reparameterization と Local Reparameterization Trick は勾配分散を大幅に低減し、収束を速める。
  • Sparse Variational Dropout を用いて訓練されたネットワークはランダムラベルでの過学習に耐性があり、良い一般化挙動を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。