[論文レビュー] Implicit Weight Uncertainty in Neural Networks
BbHはハイパーネットワークを暗黙の分布として用い、ニューラルネットワークの重みの不確実性をモデル化します。強力な不確実性推定と対敵攻撃耐性を持ちつつ、MNISTとCIFAR5で競争力のある精度を実現し、現代的なアーキテクチャへスケールします。
Modern neural networks tend to be overconfident on unseen, noisy or incorrectly labelled data and do not produce meaningful uncertainty measures. Bayesian deep learning aims to address this shortcoming with variational approximations (such as Bayes by Backprop or Multiplicative Normalising Flows). However, current approaches have limitations regarding flexibility and scalability. We introduce Bayes by Hypernet (BbH), a new method of variational approximation that interprets hypernetworks as implicit distributions. It naturally uses neural networks to model arbitrarily complex distributions and scales to modern deep learning architectures. In our experiments, we demonstrate that our method achieves competitive accuracies and predictive uncertainties on MNIST and a CIFAR5 task, while being the most robust against adversarial attacks.
研究の動機と目的
- 実世界の意思決定のために信頼できる不確実性推定の必要性を動機づける。
- 暗黙分布を用いて重みの不確実性をモデル化する BbH の提案。
- ハイパーネットワークを活用して重みサンプルを生成する、スケーラブルな変分ベイズ推論を実現。
- BbHをMNISTとCIFAR5でベイズ的および頻度主義のベースラインと比較評価。
- BbHの事後分布を分析し、他の手法と比較した複雑性を評価。)
提案手法
- 重み w を θ パラメータを持つハイパーネットワーク G により生成されるサンプルとしてモデル化する: w = G(z | θ) で z ~ p(z)。
- 暗黙分布を扱い、密度比推定器(カーネルベースの KL 近似)を用いてELBOを近似する敵対的学習に似た訓練を行う。
- 重みに標準正規分布の事前分布を用い、KL推定のために重みを独立に扱う(d=1)。
- 多層パーセプトロンの重みを生成する3層ハイパーネットワークを訓練し、アーキテクチャを比較する(層ごとに1つの G、層ごとの G_l、またはスライスごとの G_l)。
- MNISTとCIFAR5で予測に100個の事後サンプルを用い、BbHをMC-Dropout、BbB、深層アンサンブル、MNF、MAPと比較する。
- 敵対的攻撃に対する堅牢性を調べ、エントロピー AUC 指標で予測不確実性を定量化する。
実験結果
リサーチクエスチョン
- RQ1BbHは既存のベイズ的および頻度主義アプローチと比較して予測精度で競争力を持つか。
- RQ2BbHはデータ内データとデータ外データに対して意味のある頑健な予測不確実性を生み出せるか。
- RQ3BbHはResNetなどの現代的アーキテクチャへスケールし、不確実性推定と頑健性を維持できるか。
- RQ4BbHの事後重み分布の特徴は他の変分法と比べてどのような性質を持つか。
- RQ5ハイパーネットワークアーキテクチャと補助入力 z の選択は性能と不確実性にどう影響するか。
主な発見
- BbHは高い予測不確実性を示しつつ競争力のある精度を達成し、特に対敵攻撃に対して頑健である。
- MNISTではBbHは複数の手法と比較してMNIST AUCおよび外れ値AUCが高く、誤差率と実行時間も競争力がある。
- CIFAR5ではBbHは競争力のある誤差と予測不確実性を示し、いくつかのベイズ的ベースラインより実行時間が短い。
- BbHはMNFより複雑で多峰性の事後重み分布を生成し、重みの相関を捉える。
- BbHはResNet-32のようなより深いアーキテクチャへのスケーラビリティを示し、競争力のある精度と不確実性、および強い対敵ロバスト性を示す。
- カーネルベースのKL推定による暗黙の重みによって解析的なBbBに近い結果を得つつ、スケーリングを可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。