QUICK REVIEW

[論文レビュー] Learnable Bernoulli Dropout for Bayesian Deep Learning

Shahin Boluki, Randy Ardywibowo|arXiv (Cornell University)|Feb 12, 2020

Gaussian Processes and Bayesian Inference参考文献 51被引用数 20

ひとこと要約

本稿では、ドロップアウト率を微分可能パラメータとして扱い、Augment-REINFORCE-Merge (ARM) 勾配推定法により最適化するモデルに依存しないドロップアウト手法、学習可能なベルヌーイドロップアウト (LBD) を提案する。LBD は、各ニューロンごとの適応的ドロップアウトを可能にし、ディープニューラルネットワークにおける不確実性評価と精度を向上させ、変分オートエンコーダーと組み合わせることで協調フィルタリングにおいて最先端の性能を達成する (SIVAE)。

ABSTRACT

In this work, we propose learnable Bernoulli dropout (LBD), a new model-agnostic dropout scheme that considers the dropout rates as parameters jointly optimized with other model parameters. By probabilistic modeling of Bernoulli dropout, our method enables more robust prediction and uncertainty quantification in deep models. Especially, when combined with variational auto-encoders (VAEs), LBD enables flexible semi-implicit posterior representations, leading to new semi-implicit VAE~(SIVAE) models. We solve the optimization for training with respect to the dropout parameters using Augment-REINFORCE-Merge (ARM), an unbiased and low-variance gradient estimator. Our experiments on a range of tasks show the superior performance of our approach compared with other commonly used dropout schemes. Overall, LBD leads to improved accuracy and uncertainty estimates in image classification and semantic segmentation. Moreover, using SIVAE, we can achieve state-of-the-art performance on collaborative filtering for implicit feedback on several public datasets.

研究の動機と目的

固定または手動で調整されたドロップアウト率の制限を解消し、モデルの表現力と一般化性能を向上させる。
連続的リラクゼーション (例：Concrete やガウス分布) に依存する既存の学習可能なドロップアウト手法の欠点を克服する。これらは勾配バイアスと計算不安定性を引き起こす。
ドロップアウト率を完全に微分可能フレームワーク内での変分パラメータとしてエンドツーエンドで学習可能にし、ベルヌーイドロップアウトの離散的性質を保持する。
トレーニング中にニューロン固有のドロップアウト確率を学習することで、ディープモデルにおける不確実性推定とロバストネスを向上させる。
変分オートエンコーダーを介して非教師あり学習にフレームワークを拡張し、より柔軟な事後分布近似フレームワークを提供する新しい半暗黙的 VAE (SIVAE) を構築する。

提案手法

各ニューロンのドロップアウト確率を微分可能パラメータとして扱い、ネットワーク重みと同時に最適化可能な学習可能なベルヌーイドロップアウト (LBD) モジュールを提案する。
二値ドロップアウトマスクを通じた偏微分可能勾配を計算するため、Augment-REINFORCE-Merge (ARM) 勾配推定法を用い、離散変数を介したバックプロパゲーションを可能にする。
LBD を変分ベイズ近似として定式化し、ベルヌーイ分布を連続的リラクゼーションに置き換えることなく、ディープニューラルネットワークにおける柔軟な事後分布推論を可能にする。
LBD を変分オートエンコーダー (VAE) に統合し、ドロップアウト率が最適化されることで事後分布の柔軟性と表現学習が向上する半暗黙的 VAE (SIVAE) を構築する。
ネットワーク重みとドロップアウトパラメータを同時に最適化するため、確率的最適化 (例：Adam) と ARM 推定法を用いて全モデルをトレーニングする。
教師ありタスク (画像分類、セマンティックセグメンテーション) および非教師あり協調フィルタリングに本手法を適用し、分野を越えた汎用性を示す。

実験結果

リサーチクエスチョン

RQ1連続的リラクゼーションに依存せずに、ディープニューラルネットワークにおけるドロップアウト率を微分可能パラメータとして効果的に学習可能か？
RQ2固定または手動で調整されたドロップアウトと比較して、各ニューロンごとのドロップアウト率を学習することで、モデルの精度と不確実性評価が向上するか？
RQ3LBD は変分オートエンコーダーに効果的に統合可能か？これにより、より柔軟かつ強力な事後分布近似フレームワークが構築可能か？
RQ4他の学習可能なドロップアウト手法 (例：Concrete やガウスドロップアウト) と比較して、LBD のパフォーマンスとトレーニング安定性はどのように異なるか？
RQ5SIVAE に LBD を適用することで、暗黙のフィードバックを用いた協調フィルタリングにおいて最先端の性能が達成されるか？

主な発見

LBD は、標準的なドロップアウトおよび他の学習可能なドロップアウト手法と比較して、画像分類およびセマンティックセグメンテーションタスクにおける予測精度と不確実性推定を顕著に向上させる。
VAE と組み合わせることで、LBD は協調フィルタリングベンチマークで最先端の性能を達成する半暗黙的 VAE (SIVAE) の構築を可能にする。
ML-20M、Netflix、MSD データセットにおいて、SIVAE+LBD は、VAE、DAE、CDAE、WMF、SLIM、および Concrete やガウスドロップアウトを用いた他の SIVAE 変種をすべて上回る。
LBD によるパフォーマンス向上は顕著である：SIVAE+LBD はすべてのデータセットで最高の Recall@20 および NDCG@20 を達成し、非学習可能なベースラインと比較して最大 10% の向上を示す。
VAE からドロップアウトを削除するとパフォーマンスが著しく低下することを確認し、ドロップアウトが VAE の性能にとって不可欠であることを裏付けた。LBD は最適なドロップアウト率を学習することで、この効果を強化する。
ARM を用いた LBD は、勾配バイアスと最適化の非最適性に苦しむ Concrete やガウスドロップアウトの変種と比較して、より優れたパフォーマンスを達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。