QUICK REVIEW

[論文レビュー] Uncertainty Decomposition in Bayesian Neural Networks with Latent Variables

Stefan Depeweg, José Miguel Hernández-Lobato|arXiv (Cornell University)|Jun 26, 2017

Machine Learning and Algorithms参考文献 14被引用数 24

ひとこと要約

本論文は、潜在変数を有するベイジアンニューラルネットワークにおける予測不確実性を、情報理論的手法を用いて、知識的（モデル）的およびアラトリック（データ）的要因に分解する手法を提案する。この手法により、重みの不確実性に起因する不確実性を特に重視する新しい目的関数を用いてモデルバイアスを低減することで、リスクセンシティブな強化学習が可能となり、実世界のダイナミクスにより信頼性の高い一般化を実現する方策が得られる。

ABSTRACT

Bayesian neural networks (BNNs) with latent variables are probabilistic models which can automatically identify complex stochastic patterns in the data. We describe and study in these models a decomposition of predictive uncertainty into its epistemic and aleatoric components. First, we show how such a decomposition arises naturally in a Bayesian active learning scenario by following an information theoretic approach. Second, we use a similar decomposition to develop a novel risk sensitive objective for safe reinforcement learning (RL). This objective minimizes the effect of model bias in environments whose stochastic dynamics are described by BNNs with latent variables. Our experiments illustrate the usefulness of the resulting decomposition in active learning and safe RL settings.

研究の動機と目的

潜在変数を有するベイジアンニューラルネットワークにおける予測不確実性を、知識的およびアラトリック成分に分解すること。
知識的不確実性に起因するモデルバイアスを低減することに特化した、リスクセンシティブな強化学習の目的関数を開発すること。
モデル予測性能と真の世界の性能の乖離を最小化することで、オフポリシー・バッチ強化学習における方策の一般化を向上させること。
高次元の産業用ベンチマークを用いて、アクティブラーニングおよび安全な強化学習の設定で手法を検証すること。
知識的不確実性の最小化が、実環境にデプロイされた際の性能予測に近い方策を実現することを示すこと。

提案手法

予測分布のエントロピーを知識的およびアラトリック成分に分解する情報理論的手法を用いる。
ネットワーク重みおよび潜在変数の事後分布に対して、因子化されたガウス近似を用いた変分推論フレームワークを適用する。
モデルバイアスに焦点を当て、高い知識的不確実性をペナルティ化するリスクセンシティブな目的関数を導出する。
モンテカルロサンプリングを用いて、確率的重みおよび潜在変数の上での期待コストおよび不確実性測度を近似する。
観測データ上でBNNを訓練するため、ブラックボックスα-ダイバージェンス最小化（α=1.0）を用いる。
モデル予測ダイナミクスおよび真のダイナミクスの下で方策を評価し、モデルバイアスと期待コストのトレードオフを測定する。

実験結果

リサーチクエスチョン

RQ1潜在変数を有するベイジアンニューラルネットワークにおける予測不確実性は、どのように知識的およびアラトリック成分に分解可能か？
RQ2この不確実性分解は、情報的なデータポイントを選択することでアクティブラーニングを改善するために活用可能か？
RQ3知識的不確実性成分は、強化学習におけるモデルバイアスを低減するためのリスクセンシティブな目的関数を定義するために利用可能か？
RQ4知識的不確実性の最小化は、実世界のダイナミクスとモデル予測ダイナミクスの下で方策性能にどのように影響を与えるか？
RQ5提案されたリスクセンシティブな目的関数は、限定的かつ探索の少ないオフポリシー・バッチ強化学習のシナリオにおいて、より良い一般化をもたらすか？

主な発見

提案された不確実性分解は、潜在変数を有するベイジアンニューラルネットワークにおいて、知識的およびアラトリック不確実性を効果的に分離することに成功した。
知識的不確実性に基づくリスクセンシティブな目的関数により、モデル予測性能と実世界の性能の乖離が低減された。
新しい目的関数で訓練された方策は、期待コストとモデルバイアスのトレードオフをより良く達成しており、特にリスクパラメータβが増加する際顕著である。
β=5のとき、ベースラインと比較してモデルバイアスを40％低減した一方で、期待コストは平均で10％しか増加しなかった。
標準偏差をリスク指標として用いる標準的なリスクセンシティブなベースラインと比較して、本手法は特に実世界のダイナミクス下での性能の一貫性を維持する点で優れている。
産業用ベンチマークにおいて、本手法は実世界評価において低い分散で安定した性能を達成しており、モデルバイアスに対する耐性が向上していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。