QUICK REVIEW

[論文レビュー] The Relevance of Bayesian Layer Positioning to Model Uncertainty in Deep Bayesian Active Learning

Jiaming Zeng, Adam Lesnikowski|arXiv (Cornell University)|Nov 29, 2018

Machine Learning and Algorithms参考文献 9被引用数 24

ひとこと要約

この論文は、深層アクティブラーニングにおけるモデルの不確実性を捉えるために、完全にベイジアンなニューラルネットワークが本当に必要かどうかを調査している。MNISTにおけるCNNのベイジアン層の数と配置を変化させることで、出力に近い部分にたった1〜2つのベイジアン層を配置するだけで、完全にベイジアンなネットワークと同等の不確実性推定が達成でき、かつ決定論的ネットワークの速度と精度を維持できることが明らかになった。

ABSTRACT

One of the main challenges of deep learning tools is their inability to capture model uncertainty. While Bayesian deep learning can be used to tackle the problem, Bayesian neural networks often require more time and computational power to train than deterministic networks. Our work explores whether fully Bayesian networks are needed to successfully capture model uncertainty. We vary the number and position of Bayesian layers in a network and compare their performance on active learning with the MNIST dataset. We found that we can fully capture the model uncertainty by using only a few Bayesian layers near the output of the network, combining the advantages of deterministic and Bayesian networks.

研究の動機と目的

深層アクティブラーニングにおける効果的なモデル不確実性推定のために、完全にベイジアンなニューラルネットワークが不可欠であるかどうかを特定すること。
ベイジアン層の配置と数が畳み込みニューラルネットワークにおける不確実性の捉え方に与える影響を評価すること。
完全にベイジアンなネットワークに匹敵する高品質な不確実性推定を維持しながら、計算コストを抑えた代替手法を特定すること。
アクティブラーニングにおいて、異なる層構成を持つベイジアンアーキテクチャを、決定論的および完全にベイジアンなベースラインと比較すること。
不確実性の定量化とモデル性能の向上を図るため、ベイジアン層の初期分散を最適化すること。

提案手法

重みの不確実性をモデル化するために、ガウス近似変分推論を用いたベイジアン畳み込みニューラルネットワークを採用した。
予測不確実性をマージナル化することで推定するため、近似事後分布に対して100サンプルのモンテカルロサンプリングを実施した。
ベイジアン層における効率的で分散が小さい確率的バックプロパゲーションを実現するため、Flipout勾配推定器を用いた。
固定学習率0.001、バッチサイズ64でADAM最適化法を用いてモデルを訓練した。
完全にベイジアン（BNN）、部分的にベイジアン（BNN-1、BNN-2など）、決定論的（CNN）の構成を含む8つのアーキテクチャで、ベイジアン層の数と配置を体系的に変化させた。
ベイジアン層の変分事後分布の初期分散を最適化することで、不確実性のキャリブレーションと性能の向上を図った。

実験結果

リサーチクエスチョン

RQ1深層ネットワークにおけるベイジアン層の配置が、アクティブラーニングにおける不確実性推定に顕著な影響を及えるか？
RQ2特に出力に近い部分に少数のベイジアン層を配置することで、完全にベイジアンなネットワークと同等の不確実性推定性能を達成できるか？
RQ3ベイジアン層の初期分散が不確実性定量化とモデル精度に与える影響は何か？
RQ4完全にベイジアンなネットワークが不確実性を捉えるのと同様に、決定論的ネットワークの速度と精度を維持できるか？
RQ5さまざまなベイジアン層構成を持つアーキテクチャにおいて、異なる獲得関数（エントロピー、バリエーションレシオ）の性能はどのように変化するか？

主な発見

最終全結合層（Dense2）にのみ1〜2つのベイジアン層を配置することで、完全にベイジアンなネットワーク（BNN）と同等の不確実性推定性能が達成された。
ベイジアン層をDense2にのみ配置したBNN-1アーキテクチャは、エントロピーおよびバリエーションレシオの獲得関数において、完全にベイジアンなBNNを上回り、それぞれ2.63%および2.38%のテスト誤差を記録した。
BNN-1構成は最大エントロピー獲得関数でも2.87%のテスト誤差を達成し、完全にベイジアンなベースライン（3.28%）および決定論的CNN（10.03%）を上回った。
初期分散が性能に顕著な影響を及えた：平均が-3の高い初期分散は、特にバリエーションレシオ獲得関数において、低分散よりも優れた不確実性捕捉を実現した。
Dense2層は不確実性推定において最も重要な役割を果たしており、そのベイジアン性が獲得関数性能に最も大きな影響を与えた。
最終層にのみベイジアン層を配置した部分的にベイジアンなネットワークは、完全にベイジアンなネットワークと同等またはそれ以上の不確実性推定品質を達成しながら、トレーニングコストと複雑さを削減できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。