QUICK REVIEW

[論文レビュー] Deep active inference agents using Monte-Carlo methods

Zafeirios Fountas, Noor Sajid|arXiv (Cornell University)|Jun 7, 2020

Reinforcement Learning in Robotics参考文献 67被引用数 26

ひとこと要約

本稿では、複雑で連続的な状態空間において計画と効率的学習を可能にするために、モンテカルロ（MC）手法を用いた深層アクティブインファレンスエージェントを提案する。ポリシー選択にMCツリー探索を統合し、ポリシー近似のための習性ネットワークを導入し、信念更新にMCドロップアウトを適用し、学習可能な精度調節を組み込むことで、エージェントは分離可能な表現と報酬指向のナビゲーションを達成した。性能は報酬ベースのエージェントと同等またはそれを上回り、生物学的に妥当な枠組みを維持したままである。

ABSTRACT

Active inference is a Bayesian framework for understanding biological intelligence. The underlying theory brings together perception and action under one single imperative: minimizing free energy. However, despite its theoretical utility in explaining intelligence, computational implementations have been restricted to low-dimensional and idealized situations. In this paper, we present a neural architecture for building deep active inference agents operating in complex, continuous state-spaces using multiple forms of Monte-Carlo (MC) sampling. For this, we introduce a number of techniques, novel to active inference. These include: i) selecting free-energy-optimal policies via MC tree search, ii) approximating this optimal policy distribution via a feed-forward `habitual' network, iii) predicting future parameter belief updates using MC dropouts and, finally, iv) optimizing state transition precision (a high-end form of attention). Our approach enables agents to learn environmental dynamics efficiently, while maintaining task performance, in relation to reward-based counterparts. We illustrate this in a new toy environment, based on the dSprites data-set, and demonstrate that active inference agents automatically create disentangled representations that are apt for modeling state transitions. In a more complex Animal-AI environment, our agents (using the same neural architecture) are able to simulate future state transitions and actions (i.e., plan), to evince reward-directed navigation - despite temporary suspension of visual input. These results show that deep active inference - equipped with MC methods - provides a flexible framework to develop biologically-inspired intelligent agents, with applications in both machine learning and cognitive science.

研究の動機と目的

従来の実装が低次元で離散的なタスクに限定されていたのに対し、高次元で連続的な状態空間へのアクティブインファレンスの拡張を目的とする。
自由エネルギー最適なポリシー選択のためのモンテカルロツリーサーチ（MCTS）を用いて、アクティブインファレンスエージェントにおける効果的な計画を可能にする。
生物学的習慣形成にインspiredされたフォワード・フォワード型「習性」ネットワークを用いて最適ポリシーの近似を行うことで、熟練状態における繰り返し計画の必要性を低減する。
エナサンブルネットワークを用いずに不確実性推定を効率的に行えるように、MCドロップアウトを用いてパrameterの信念更新を改善する。
状態遷移の精度を学習可能にするパラメータを導入し、上位から下位への注意メカニズムとして機能させることで、表現学習と分離性の向上を図る。

提案手法

未来の軌道をサンプリングし、期待自由エネルギー（EFE）を推定することで、自由エネルギー最適なポリシーを選択するためにモンテカルロツリーサーチ（MCTS）を用いる。
最適ポリシー分布の近似のため、フォワード・フォワード型ニューラルネットワークを「習性」ポリシーとして用いることで、熟練状態における繰り返し計画の必要性を低減する。
MCドロップアウトを用いて、モデルパラメータの将来の信念更新を予測し、エナサンブルを用いずに不確実性を伴う推論を可能にする。
状態遷移における不確実性を調整する学習可能な精度パラメータ（ωt）を導入し、生物学的システムにおける注意メカニズムに類似した機能を実現する。
単一の深層ニューラルアーキテクチャを用いて、アクティブインファレンスフレームワーク全体を定式化し、行動が変分自由エネルギーを最小化するようにする。
変分推論を用いてエージェントをエンドツーエンドで訓練し、損失関数として変分自由エネルギーの下界（ELBO）を用いることで、知覚と行動の両方が同時に最適化されるようにする。

実験結果

リサーチクエスチョン

RQ1モンテカルロ手法は、連続的かつ高次元の状態空間で動作する深層アクティブインファレンスエージェントにおいて、効果的な計画を可能にするか？
RQ2MCTSと習性ネットワークの統合は、アクティブインファレンスにおけるサンプル効率と計算コストの低減にどの程度寄与するか？
RQ3MCドロップアウトは、エナサンブル手法に代わって、アクティブインファレンスにおける不確実性推定にどの程度適しているか？
RQ4状態遷移における学習可能な精度は、表現の分離性の向上と複雑な環境における学習の改善にどの程度寄与するか？
RQ5単一の深層ニューラルアーキテクチャは、アクティブインファレンスフレームワークにおいて、知覚、計画、ポリシー学習を同時にサポートしつつ、生物学的妥当性を維持できるか？

主な発見

DAIMCエージェントは、dSpritesに基づく環境で、状態遷移のモデリングに有効な分離可能な表現を学習した。
Animal-AI環境において、一時的な視覚入力の停止にもかかわらず、報酬指向のナビゲーションと将来の状態遷移のシミュレーションを示した。これは、内部的計画の強靭性を示している。
複雑なタスクにおいて、報酬ベースのエージェントと同等またはそれ以上の性能を示した。これは、モンテカルロ手法を用いたアクティブインファレンスが、標準的な強化学習の代替手段として有効である可能性を示している。
信念更新にMCドロップアウトを用いることで、エナサンブル手法と同等の性能を得つつ、計算コストを低減した。これは、その効率性を裏付けるものである。
学習可能な精度（ωt）は、潜在的特徴量間の統計的独立性を促進することで、分離性の向上に寄与した。これは、生物学的システムにおける注意メカニズムと整合的であった。
MCTSを用いた計画と部分観測下でも性能を維持できる能力は、動的環境におけるエージェントの強靭性と適応性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。