[論文レビュー] Reinforcement Learning through Active Inference
本論文は、自由エネルギーの期待未来(FEEF)——強化学習における意思決定のためのアクティブ推論ベースの目的——を導入し、探索と活用の自然なバランスを生み出し、疎な報酬・よく形成された報酬・無報酬の連続制御タスクで高い性能を示す。
The central tenet of reinforcement learning (RL) is that agents seek to maximize the sum of cumulative rewards. In contrast, active inference, an emerging framework within cognitive and computational neuroscience, proposes that agents act to maximize the evidence for a biased generative model. Here, we illustrate how ideas from active inference can augment traditional RL approaches by (i) furnishing an inherent balance of exploration and exploitation, and (ii) providing a more flexible conceptualization of reward. Inspired by active inference, we develop and implement a novel objective for decision making, which we term the free energy of the expected future. We demonstrate that the resulting algorithm successfully balances exploration and exploitation, simultaneously achieving robust performance on several challenging RL benchmarks with sparse, well-shaped, and no rewards.
研究の動機と目的
- ベイズ推論を活用し、好ましい結果へ向かうモデルバイアスを利用するために、アクティブ推論とRLの組み合わせを動機付ける。
- 期待未来の自由エネルギーを意思決定の目的として定式化し、実装する。
- 提案された目的が従来のRL目的に対して扱いやすい(有効な)界を提供することを示す。
- 報酬構造が異なる連続制御ベンチマークで頑健な性能を示す。
提案手法
- 好みをエンコードするバイアス付き生成モデルを持つPOMDPにおける意思決定を定式化する。
- 期待未来の自由エネルギーを定義し、ポリシー q(pi) がこの量を最小化することを導出する。
- 負の自由エネルギーを期待情報利得項と外的項に分解し、探索と活用を結びつける。
- プランニングホライズンHを用いたモデルベースRLを実装し、クロスエントロピ法(CEM)でq(pi)を最適化する。
- 因子分解された変分分布と扱いやすいKL項を用いて、将来の状態・観測・パラメータに関する信念を近似する。
- スパース報酬(Mountain Car, Cup Catch)、整った報酬(Half Cheetah)、無報酴(Ant Maze)の連続制御タスクで評価する。
実験結果
リサーチクエスチョン
- RQ1期待未来の自由エネルギーを最小化することは、RLにおける自然な探索–活用のバランスを生み出すか。
- RQ2アクティブ推論ベースの目的は、スパースまたは無報酬信号を伴う連続制御で頑健な性能を達成できるか。
- RQ3FEEFは伝統的な確率的RL目的とどのように関連し、それをどのように界付けするか。
- RQ4高次元で連続的な状態-行動空間およびモデルベース計画へこのアプローチはスケールするか。
- RQ5観測の分布として表現された好みは、柔軟な報酬モデリングに利点をもたらすか。
主な発見
- FEEF目的は情報利得項と外的項を通じて自然な探索–活用のトレードオフを誘導する。
- Mountain Car(スパース報酬)では、単一の試行で最適な性能を達成し、強い指向的探索を示している。
- Cup Catch(スパース報酬)では、方法は方法間でベースラインと同等の性能を示し、探索が十分な場面で頑健性を示す。
- Half Cheetah(良く形づくられた報酬)では、100エピソード後にSACを大幅に上回り、サンプル効率の改善を示す。
- Ant Maze(無報酬)では、探索がより高く、ランダムポリシーのベースラインよりも迷路のより大きな部分をカバーする。
- 全体として、多様な報酬構造に対して頑健な性能を示し、連続で高次元のタスクへスケールする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。