Skip to main content
QUICK REVIEW

[論文レビュー] Variational Dropout and the Local Reparameterization Trick

Diederik P. Kingma, Tim Salimans|UvA-DARE (University of Amsterdam)|Jun 8, 2015
Gaussian Processes and Bayesian Inference参考文献 23被引用数 461
ひとこと要約

この論文は、ベイジアンニューラルネットワークにおける確率的勾配変分ベイズ推論の分散を低減する局所的再パラメータ化トリックを導入し、著しく高速に収束する、効率的で並列化可能なトレーニングを可能にする。この手法はガウスドロップアウトを一般化し、固定されたドロップアウト率ではなく、適応的なドロップアウト率を学習することで、200倍の高速化と標準ベースラインより低い分散を達成し、最先端の性能を実現する。

ABSTRACT

We investigate a local reparameterizaton technique for greatly reducing the variance of stochastic gradients for variational Bayesian inference (SGVB) of a posterior over model parameters, while retaining parallelizability. This local reparameterization translates uncertainty about global parameters into local noise that is independent across datapoints in the minibatch. Such parameterizations can be trivially parallelized and have variance that is inversely proportional to the minibatch size, generally leading to much faster convergence. Additionally, we explore a connection with dropout: Gaussian dropout objectives correspond to SGVB with local reparameterization, a scale-invariant prior and proportionally fixed posterior variance. Our method allows inference of more flexibly parameterized posteriors; specifically, we propose variational dropout, a generalization of Gaussian dropout where the dropout rates are learned, often leading to better models. The method is demonstrated through several experiments.

研究の動機と目的

  • ベイジアンニューラルネットワークにおける確率的勾配変分ベイズ推論(SGVB)の高い分散を軽減し、効率的な最適化を妨げる要因を解消すること。
  • グローバルなパラメータの不確実性をデータポイントごとの局所的ノイズに再パラメータ化することで、変分ベイズ推論の効率性とスケーラビリティを向上させること。
  • 固定されたドロップアウト率ではなく、最適なドロップアウト率を学習することで、ガウスドロップアウトを一般化し、より柔軟で適応的な正則化を可能にすること。
  • 提案手法が、標準ドロップアウトやベースライン変分ベイズ推論よりも、収束が速く一般化性能が優れていることを示すこと。

提案手法

  • グローバルなモデル重みの不確実性を、ミニバッチ内の各データポイントに対して独立した局所的ノイズに変換する局所的再パラメータ化トリックを導入すること。
  • 再パラメータ化トリックを用いて、ミニバッチサイズに反比例する分散を持つ確率的勾配推定器を導出し、効率的で並列化可能な最適化を可能にすること。
  • 変分ドロップアウトを、ドロップアウト率が重みの事後分布のパラメータとして学習可能である一般化されたガウスドロップアウトとして定式化すること。
  • 局所的再パラメータ化を変分下界(ELBO)に適用し、局所的でデータポイント固有の確率的変数を用いてノイズを逆伝播可能にする。
  • スケール不変の事前分布と固定された事後分散を用いることで、ガウスドロップアウトを提案フレームワークの特殊ケースとして回復すること。
  • 各重みについて1回のランダムサンプルで実装し、標準的な再パラメータ化と比較して、ランダム変数の数を著しく削減すること。

実験結果

リサーチクエスチョン

  • RQ1局所的再パラメータ化は、ニューラルネットワークの変分ベイズ推論における確率的勾配の分散を低減し、収束を高速化できるか?
  • RQ2提案手法は、標準的な再パラメータ化およびベースラインドロップアウトと比較して、トレーニング速度とテスト精度の両面で優れているか?
  • RQ3学習可能なドロップアウト率を用いた変分ドロップアウトは、固定率ドロップアウトやガウスドロップアウトを凌駆する一般化性能を示せるか?
  • RQ4局所的再パラメータ化トリックは、ミニバッチトレーニングにおける計算効率と並列化にどのような影響を与えるか?
  • RQ5この手法は、異なるネットワークアーキテクチャやデータセットサイズにおいて、性能を維持または向上させられるか?

主な発見

  • 局所的再パラメータ化推定器は、$1/M$ の分散スケーリングを達成し、$M$ をミニバッチサイズとして、標準推定器よりも著しく低い勾配分散を実現する。
  • この手法により、トレーニングが200倍高速化された:標準的なSGVBでは1エポックあたり1635秒、局所的再パラメータ化トリックでは1エポックあたり7.4秒(現代のGPUで)。
  • 適応的ドロップアウト率を学習する変分ドロップアウトは、標準ドロップアウトや非適応的ガウスドロップアウトを上回り、特にドロップアウトがしばしばアンダーフィッティングを引き起こす小さなネットワークにおいて顕著に優れる。
  • 適応的変分ドロップアウト手法は、MNISTおよびCIFAR-10の両方で、すべてのベースラインより低いテスト誤差を達成し、KLダイバージェンス項を3倍に縮小した場合に最も優れた性能を示した。
  • 確率的勾配推定器の分散は、局所的再パラメータ化手法で最も低く、トレーニング全体にわたり安定しており、重みをデータポイントごとにサンプリングするか、ミニバッチごとにサンプリングする推定器を上回る。
  • この手法はガウスドロップアウトを一般化し、局所的ノイズを用いた変分ベイズ推論としてドロップアウトの原理的かつ統計的解釈を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。