[論文レビュー] Joint Learning of Hierarchical Neural Options and Abstract World Model
AgentOWL は階層的ニューラルオプションと抽象世界モデルを共同で学習し、サンプル効率を改善した一連のゴールを達成する。物体中心の Atari ゲームで実証。PoE に基づく抽象世界モデルと LLM 助力のサブゴール仮説を用いてオプションを構築・計画。
Building agents that can perform new skills by composing existing skills is a long-standing goal of AI agent research. Towards this end, we investigate how to efficiently acquire a sequence of skills, formalized as hierarchical neural options. However, existing model-free hierarchical reinforcement algorithms need a lot of data. We propose a novel method, which we call AgentOWL (Option and World model Learning Agent), that jointly learns -- in a sample efficient way -- an abstract world model (abstracting across both states and time) and a set of hierarchical neural options. We show, on a subset of Object-Centric Atari games, that our method can learn more skills using much less data than baseline methods.
研究の動機と目的
- 既存スキルを組み合わせてサンプル効率良く一連のスキルを獲得できるよう、エージェントを動機づけ・支援する。
- 状態と時間をまたいで抽象化する抽象世界モデルを開発し、オプションでの計画を可能にする。
- 象徴的な、専門家の積集合としての world モデリングと階層的ニューラルオプションを統合する。
- 有用なサブオプションを仮説づけしその発見を導くために大規模言語モデル(LLMs)を活用する。
- 基準と比較して難易度が高いオブジェクト中心の Atari ゲームでスキル獲得の改善を示す。
提案手法
- ゴール述語に基づく象徴的で抽象的な状態特徴で環境を表現する。
- PoE-World を用いて、LLM生成の専門家を組み込んだ専門家の積として抽象世界モデル p_o(f'|s) を学習する。
- 実世界と抽象世界の両方で階層DQNを用いて階層的ニューラルオプションを訓練し、各オプションごとにリプレイバッファを分離する。
- ポリシーが実世界の行動と世界模型に guided された行動を組み合わせる ε-グリーディ混合を取り入れ、時間とともにモデルベースからモデルフリーへと減衰させる。
- ターゲットゴールに対する新しいサブオプションをLLM支援で仮説化し、仮想オプションを追加して抽象世界モデルを適切に更新する。
- PoE-World の重みに frame-axiom プリオリアを課し、オプションが意図した抽象特徴に影響を与える傾向を持たせ、サンプル効率を改善する。

実験結果
リサーチクエスチョン
- RQ1抽象世界モデルと階層的ニューラルオプションを共同学習することは、複数スキル獲得のサンプル効率を改善するのか?
- RQ2専門家の積Symbolic World Model は限られたデータでの計画と一般化を効果的に可能にするのか?
- RQ3LLMs は階層的強化学習設定で有用なサブオプションを提案してゴール達成を加速させるのか?
- RQ4抽象世界モデルを用いて獲得済みオプションを組み合わせることでゼロショットの状況に一般化できるのか?
主な発見
- AgentOWL は対象環境内の Montezuma’s Revenge、Pitfall、Private Eye の各ゲームで、設定された環境ステップ内における習得済みオプションの最大数を達成。
- LLM によるサブゴール提案や安定化機構を除去すると性能とデータ効率が低下するアブレーションを実施。
- ゼロショット一般化を示す:移動オプションを学習した後、元の開始点へ戻ることで既存オプションが新たな開始状態から新たなゴールを追加訓練なしで達成可能となる。
- ターゲットゴールに対する訓練時に学習世界模型に導かれたカリキュラム様効果で、サブオプションが暗黙的に学習され改善する。
- 抽象的計画と階層的学習を組み合わせることで、一歩の罠を克服し高レベルオプションでの計画を可能にする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。