[論文レビュー] A unified strategy for implementing curiosity and empowerment driven reinforcement learning
本稿では、エージェントと環境間の情報フローをモデル化することで、好奇心と自己能動性(エンパワーメント)を統合した包括的フレームワークを提案する。共有されたフォワードモデルを用いることで、好奇心からホメオスタシス的ドライブを導出し、効率的な自己能動性の計算を可能にし、より効率的な探索と制御を実現。サンプル効率が向上し、より広範な自律的行動が可能になる。
Although there are many approaches to implement intrinsically motivated artificial agents, the combined usage of multiple intrinsic drives remains still a relatively unexplored research area. Specifically, we hypothesize that a mechanism capable of quantifying and controlling the evolution of the information flow between the agent and the environment could be the fundamental component for implementing a higher degree of autonomy into artificial intelligent agents. This paper propose a unified strategy for implementing two semantically orthogonal intrinsic motivations: curiosity and empowerment. Curiosity reward informs the agent about the relevance of a recent agent action, whereas empowerment is implemented as the opposite information flow from the agent to the environment that quantifies the agent's potential of controlling its own future. We show that an additional homeostatic drive is derived from the curiosity reward, which generalizes and enhances the information gain of a classical curious/heterostatic reinforcement learning agent. We show how a shared internal model by curiosity and empowerment facilitates a more efficient training of the empowerment function. Finally, we discuss future directions for further leveraging the interplay between these two intrinsic rewards.
研究の動機と目的
- 強化学習エージェントにおける複数の内発的動機付けの統合がまだ十分に検討されていないという問題に取り組む。
- エージェントと環境間の情報フローを内発的動機付けのコアメカニズムとしてモデル化する包括的フレームワークを構築する。
- 共有されたフォワードモデルを用いて、情報理論的基盤から好奇心と自己能動性を共通の出発点から導出する方法を示す。
- 環境からの情報獲得(好奇心)と環境への制御可能性(自己能動性)を統合することで、学習効率と行動の多様性が向上することを示す。
- 好奇心から導出されるホメオスタシス的ドライブを導入し、従来の好奇心ベース手法を上回る探索性を向上させる。
提案手法
- フォワードモデルにおける予測誤差を用いて、エージェントへの環境からの情報量(情報獲得)として好奇心を形式化する。
- エージェントから環境への情報フローとして自己能動性を定義し、決定的方策下での将来状態分布のエントロピーで測定する。
- 状態行動ペアからの次状態観測を予測するための共有された深層ニューラルネットワークをフォワードモデルとして用い、計算コストを低減する。
- パラメータ α を導入することで、好奇心からホメオスタシス的ドライブを導出し、探索と安定性のバランスをとる。これは古典的好奇心の一般化である。
- DDPGを用いて方策最適化を行い、3部屋ナビゲーション環境で、組み合わせた内発的報酬を用いてエージェントを訓練する。
- 変分推論と情報理論的原則を用いて、好奇心と自己能動性の両方を効率的に近似する。
実験結果
リサーチクエスチョン
- RQ1強化学習において、好奇心と自己能動性を情報理論的枠組みの下で統合する方法は何か?
- RQ2共有されたフォワードモデルは、好奇心と自己能動性の両方の学習におけるサンプル効率を向上させ得るか?
- RQ3導出されたホメオスタシス的ドライブは、純粋な好奇心ベース手法に比べて探索性を向上させるか?
- RQ4将来の選択肢(自己能動性)と制御精度のトレードオフは、方策学習にどのように影響するか?
- RQ5好奇心と自己能動性の相互作用は、より多様で自律的なエージェント行動を生み出すか?
主な発見
- 3部屋環境におけるランダムな初期位置からの実験で、純粋な好奇心ベースのエージェントと比較して、本手法が優れた探索行動を達成した。
- 好奇心から導出されたホメオスタシス的ドライブは、古典的好奇心を一般化し、パラメータ α を通じて探索と安定性のバランスをとることで、より優れた性能を示した。
- 自己能動性の近似は、ドアの近くなど制御可能性が最大となる高制御状態を効果的に同定した。
- フォワードモデルの共有により、好奇心関数と自己能動性関数の両方における計算コストが低減され、学習効率が向上した。
- 統合された内発的報酬フレームワークにより、情報取得と制御可能性の両方をバランスさせた行動の発見が可能になった。
- 組み合わせた報酬を用いたDDPGによる方策最適化により、情報獲得と将来の制御可能性の両方を最大化する安定かつ効果的な制御方策が得られた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。