[論文レビュー] Bayesian policy selection using active inference
本稿では、能動的インファレンスを用いたベイジアン方策選択フレームワークを提案する。エージェントは変分推論を用いて世界モデルを学習し、期待自由エネルギーを最小化することで行動を選択する。報酬形状を用いずにマウンテンカール問題を解くことに成功し、エキスパートロールアウトからの学習と好ましい状態事前分布の活用により、初期位置に依存しない一般化が達成される。
Learning to take actions based on observations is a core requirement for artificial agents to be able to be successful and robust at their task. Reinforcement Learning (RL) is a well-known technique for learning such policies. However, current RL algorithms often have to deal with reward shaping, have difficulties generalizing to other environments and are most often sample inefficient. In this paper, we explore active inference and the free energy principle, a normative theory from neuroscience that explains how self-organizing biological systems operate by maintaining a model of the world and casting action selection as an inference problem. We apply this concept to a typical problem known to the RL community, the mountain car problem, and show how active inference encompasses both RL and learning from demonstrations.
研究の動機と目的
- 自由エネルギー原理と能動的インファレンスに基づく、頑健で一般化可能な方策学習を実現する強化学習フレームワークの構築を目的とする。
- 従来の強化学習におけるサンプル非効率性と報酬形状の課題を解決するため、行動選択をベイジアン推論として定式化することを目的とする。
- 世界モデルの学習、計画、探索を神経科学にインspiredされた統一的ノルマティブフレームワークに統合することを目的とする。
- マウンテンカール環境において本手法を実証し、任意の初期位置からの一般化を示すこと。
提案手法
- エージェントは、観測から潜在状態空間を推論するために変分オートエンコーダ(VAE)を用いてダイナミクスモデルを学習する。
- 事前分布(状態に関する信念)、観測尤度、行動方策に因子分解される生成モデルを採用する。
- 期待自由エネルギー G(π) は、予測された状態と好ましい状態とのKLダイバージェンスと、期待観測エントロピーの組み合わせとして計算される。
- 期待自由エネルギーのソフトマックスによる選択により、目的指向的行動と内因性の認知的探索が可能になる。
- 各タイムステップで G(π) を最小化することで、エンドツーエンドに方策を訓練し、アモアタイズド推論を可能にする。
- 好ましい状態事前分布はエキスパートロールアウトから蒸留され、エージェントの目的状態分布を表す。
実験結果
リサーチクエスチョン
- RQ1学習済みの世界モデルを用いた能動的インファレンスは、明示的な報酬形状なしにマウンテンカール問題を解けるか?
- RQ2好ましい状態事前分布と変分推論の統合が、初期条件に依存しない一般化をどのように実現するか?
- RQ3能動的インファレンスは、単一のフレームワーク内で、目的指向的行動と認知的探索の両方をどの程度効果的にサポートするか?
- RQ4期待自由エネルギーの最小化は、従来の強化学習の目的関数と比較して、サンプル効率性とロバスト性においてどのように優れるか?
主な発見
- エージェントは、図2に示すように、環境の観測を正確に再構築・予測するダイナミクスモデルを学習した。
- 学習済みモデルに基づく仮想的ロールアウトでは、期待自由エネルギー G(π) が山頂への到達を示唆する軌道を効果的に同定していることがわかった。
- G(π) を最小化することで訓練された方策は、マウンテンカール環境の任意の初期位置からも一般化し、一貫して目的に到達した。
- エキスパートロールアウトから導出された好ましい状態分布は、望ましい終端状態を的確に捉えており、明示的な報酬形状なしにスパース報酬信号を効果的に符号化している。
- 状態予測の不確実性を通じて認知的探索が自然に組み込まれており、外部の好奇心信号への依存が軽減された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。