Skip to main content
QUICK REVIEW

[論文レビュー] Variational Bayesian dropout: pitfalls and fixes

Jiri Hron, Alexander Matthews|arXiv (Cornell University)|Jul 5, 2018
Gaussian Processes and Bayesian Inference参考文献 3被引用数 23
ひとこと要約

この論文は、変分ベイジアンドロップアウトにおける根本的な理論的欠陥を特定している。特に、不適切な事前分布の使用と特異な変分近似が、標準的なベイジアン推論を無効にすることを指摘している。これらの問題を解決するために、著者らはQuasi-KL(QKL)発散——高次元分布の一貫性のある近似を可能にする、新しい変分目的関数——を導入した。このQKL発散は、真の事後分布と近似事後分布のサポートが一致しない場合でも有効であり、退化したガウス近似タスクにおいてPCAと同等であることを示している。

ABSTRACT

Dropout, a stochastic regularisation technique for training of neural networks, has recently been reinterpreted as a specific type of approximate inference algorithm for Bayesian neural networks. The main contribution of the reinterpretation is in providing a theoretical framework useful for analysing and extending the algorithm. We show that the proposed framework suffers from several issues; from undefined or pathological behaviour of the true posterior related to use of improper priors, to an ill-defined variational objective due to singularity of the approximating distribution relative to the true posterior. Our analysis of the improper log uniform prior used in variational Gaussian dropout suggests the pathologies are generally irredeemable, and that the algorithm still works only because the variational formulation annuls some of the pathologies. To address the singularity issue, we proffer Quasi-KL (QKL) divergence, a new approximate inference objective for approximation of high-dimensional distributions. We show that motivations for variational Bernoulli dropout based on discretisation and noise have QKL as a limit. Properties of QKL are studied both theoretically and on a simple practical example which shows that the QKL-optimal approximation of a full rank Gaussian with a degenerate one naturally leads to the Principal Component Analysis solution.

研究の動機と目的

  • 変分ベイジアンドロップアウトにおける理論的不整合、特に不適切な事前分布と特異な変分近似に起因するものを診断すること。
  • これらの理論的欠陥にもかかわらず、なぜアルゴリズムが実際には良好な結果を示すのかを説明すること。
  • 真の事後分布と近似事後分布の間の特異性問題を解消する新しい変分推論目的関数を開発すること。
  • 事後分布と近似事後分布のサポートが重ならない場合に、標準KL発散の代替として原理的かつ整合的な代替手段を確立すること。
  • ガウス近似の具体的な例を通じて、新しい目的関数の実用的有用性を理論的分析とともに示すこと。

提案手法

  • 標準KL発散が特異性のため定義されない場合でも、依然として定義されるような、変分推論の極限形としてのQuasi-KL(QKL)発散を提案する。
  • QKLを既存の手法の一般化として導出し、先行研究(例:Gal & Ghahramani, 2016)で提唱された修正策がQKLの特別な場合であることを示す。
  • 劣化収束定理や部分空間への測度の制限といった測度論的道具を用いて、離散的近似が連続的期待値に収束することを証明する。
  • フルランクガウス分布を退化したガウス分布で近似する問題にQKLを適用し、最適解が主成分分析(PCA)に対応することを示す。
  • ガウス近似の文脈においてQKL目的関数の解析的勾配を導出し、標準的な変分推論手法による最適化を可能にする。
  • QKL目的関数の最適解が極限においてPCAに収束することを示し、変分推論と次元削減の間の原理的つながりを提供する。

実験結果

リサーチクエスチョン

  • RQ1変分ベイジアンドロップアウトは、不適切な事前分布と特異な変分近似を使用しているにもかかわらず、なぜ依然として良好な実験的結果をもたらすのか?
  • RQ2近似事後分布のサポートが真の事後分布よりも次元が低い場合、標準KL発散が変分推論でどのように理論的に制限を受けるのか?
  • RQ3このような特異性が存在する場合でも、定義されかつ一貫性を持つ新しい変分目的関数を構築できるか?
  • RQ4提案されたQuasi-KL(QKL)発散は、既存の推論目的関数とどのように関係し、どのような理論的性質を持つのか?
  • RQ5QKL目的関数は、特定の極限状態において、既知の統計的手法(例:PCA)を回復するのか?

主な発見

  • 標準的な変分ベイジアンドロップアウトフレームワークは、不適切な事前分布と特異な変分近似のため、理論的に不成立であり、標準的なベイジアン解釈を無効にしている。
  • 変分ガウスドロップアウトで使用される対数一様事前分布は、不適切な事後分布を生じさせ、スパarsity誘導が本質的に非ベイジアンな性質を持つことになる。
  • 近似事後分布のサポートが真の事後分布よりも次元が低い場合、標準KL発散は定義されなくなる。これは高次元設定で一般的な問題である。
  • Quasi-KL(QKL)発散は、特異性問題を解消し、既存の手法を一般化する、定義された極限的目的関数として導入された。
  • フルランクガウス分布を退化したガウス分布で近似する場合、QKL最適解は主成分分析(PCA)の解に収束する。これは、変分推論と古典的次元削減の間の原理的つながりを示している。
  • QKL目的関数の最適解は、データポイント数が増加する極限において、Frobenius/ユークリッドノルムでPCAに収束する。これにより、その一貫性と理論的根拠が確認される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。