QUICK REVIEW

[論文レビュー] Adversarial Distillation of Bayesian Neural Network Posteriors

Kuan-Chieh Wang, Paul Vicol|arXiv (Cornell University)|Jun 27, 2018

Adversarial Robustness in Machine Learning参考文献 36被引用数 25

ひとこと要約

この論文は、ベイジアンニューラルネットワーク（BNNs）における確率的勾配ランジュヴィンダイナミクス（SGLD）からの事後分布サンプルを、生成的対抗ネットワーク（GAN）を用いて蒸留する、敵対的事後分布蒸留（APD）を提案する。GANの生成器は、高品質な事後分布サンプルを学習し、最小限のストレージオーバーヘッドで効率的なテスト時推論を可能にするとともに、異常検出、アクティブラーニング、敵対的防御といった不確実性に敏感なタスクの性能を維持する。

ABSTRACT

Bayesian neural networks (BNNs) allow us to reason about uncertainty in a principled way. Stochastic Gradient Langevin Dynamics (SGLD) enables efficient BNN learning by drawing samples from the BNN posterior using mini-batches. However, SGLD and its extensions require storage of many copies of the model parameters, a potentially prohibitive cost, especially for large neural networks. We propose a framework, Adversarial Posterior Distillation, to distill the SGLD samples using a Generative Adversarial Network (GAN). At test-time, samples are generated by the GAN. We show that this distillation framework incurs no loss in performance on recent BNN applications including anomaly detection, active learning, and defense against adversarial attacks. By construction, our framework not only distills the Bayesian predictive distribution, but the posterior itself. This allows one to compute quantities such as the approximate model variance, which is useful in downstream tasks. To our knowledge, these are the first results applying MCMC-based BNNs to the aforementioned downstream applications.

研究の動機と目的

大規模なモデルにおいて、複数のSGLDサンプルを保持する高コストなストレージ問題を解決すること。
不確実性推定の品質を損なわずに、テスト時に効率的かつパラメータ化された事後分布近似を可能にすること。
MCMCベースのBNN、特にSGLDが、不確実性に敏感な応用においてMCドロップアウトのような単純な手法を上回ることを示すこと。
GANベースの蒸留が、モデルの分散を含む完全な事後分布構造を保持することを示すこと。これは、下流タスクにとって極めて重要である。
不確実性の定量化が不可欠な実世界の応用に、MCMCベースのBNNを実用的に導入するためのフレームワークを確立すること。

提案手法

ベイジアンニューラルネットワーク（BNNs）における真の事後分布を表すために、確率的勾配ランジュヴィンダイナミクス（SGLD）を用いてモデルパラメータの事後分布サンプルを生成する。
生成的対抗ネットワーク（GAN）を訓練し、生成器がSGLD事後分布サンプルの分布を再現するように学習させる。
識別器は、実際のSGLDサンプルと生成されたサンプルを区別する。一方、生成器は識別器をだませるように最適化される。
訓練の安定化とサンプル品質の向上を図るため、勾配ペナルティを用いたWGAN-GPを採用し、より良い事後分布近似を実現する。
テスト時には、SGLDサンプルを保存するのではなく、訓練済みのGAN生成器からサンプルを生成することで、メモリ使用量を著しく削減する。
蒸留されたGANサンプルを用いてエントロピー、BALDなどの不確実性指標を計算し、異常検出やアクティブラーニングなどの下流タスクを実行する。

実験結果

リサーチクエスチョン

RQ1SGLDで得られたベイジアンニューラルネットワークの事後分布を、GANが効果的に蒸留できるか。特に、その不確実性特性が保持されるか。
RQ2GANベースの蒸留によって得られる事後分布は、異常検出や敵対的防御といった不確実性に敏感なタスクで、SGLDサンプルと同等の性能を達成できるか。
RQ3Mixture of Gaussians（MoG）のような単純な近似手法と比較して、GANベースの蒸留は、精度とストレージ効率の両面で優れているか。
RQ4SGLDサンプルを保存するのと比較して、GANベースの事後分布蒸留は、ストレージコストを削減しながらも、高品質な不確実性推定を維持できるか。
RQ5オリジナルのGAN、WGAN、WGAN-GPといった異なる訓練形式のうち、どの形式がBNNの事後分布蒸留において最も安定的かつ効果的か。

主な発見

APDは、notMNISTのOOD異常検出タスクにおいてSGLDサンプルの99.8％の性能を維持し、60成分のMoG（99.3％）を上回っているが、パラメータ数は1.67M（MoGの9.54M）と著しく少ない。
APDの性能は生成サンプル数の増加に伴い向上し、50個のSGLDサンプルに相当する性能を20個の生成サンプルで達成でき、ストレージコストを2.5倍削減した。
勾配ペナルティを用いたWGAN-GPは、オリジナルのGANや重みクリッピングを用いたWGANと比較して、収束が早く、訓練のオscillationも少なく、より安定した事後分布蒸留を実現した。
単一成分のMixture of Gaussians（MoG）は異常検出タスクで著しく劣っており、SGLD事後分布が多次元的であり、単純な因子化近似では捉えきれないことが示された。
APDはテスト時に完全な事後分布へのアクセスを可能にし、モデル分散やその他の不確実性指標の計算が可能である。これは、アクティブラーニングや敵対的耐性の観点から不可欠である。
本フレームワークは、従来ストレージコストのため実用的でないと考えられてきたMCMCベースのBNNが、敵対的蒸留を用いることで実用的に導入可能であることを示した。特に、異常検出や敵対的防御といった重要な応用分野で、MCドロップアウトのような単純な手法を上回る性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。