[論文レビュー] Hierarchical Reinforcement Learning By Discovering Intrinsic Options
tldr: HIDIO は自己教師ありの方法でタスク非依存の内在的オプションを学習し、それらを協調して稀少報酬タスクの解決に使用することで、ベースラインより高いサンプル効率を達成します。
We propose a hierarchical reinforcement learning method, HIDIO, that can learn task-agnostic options in a self-supervised manner while jointly learning to utilize them to solve sparse-reward tasks. Unlike current hierarchical RL approaches that tend to formulate goal-reaching low-level tasks or pre-define ad hoc lower-level policies, HIDIO encourages lower-level option learning that is independent of the task at hand, requiring few assumptions or little knowledge about the task structure. These options are learned through an intrinsic entropy minimization objective conditioned on the option sub-trajectories. The learned options are diverse and task-agnostic. In experiments on sparse-reward robotic manipulation and navigation tasks, HIDIO achieves higher success rates with greater sample efficiency than regular RL baselines and two state-of-the-art hierarchical RL methods.
研究の動機と目的
- 手動のオプション設計を用いず、稀少報酬タスクの自動的なタスク分解を動機づける。
- スケジューラが潜在オプションを選択し、ワーカーが行動を実行する2レベルの階層を学習する。
- 内在エントロピー目的関数を通じて、多様でタスク非依存の低レベルオプションを促進する。
- 自己教師ありのオプション発見が、ロボットタスク全般で成功率と効率を向上させることを示す。
提案手法
- K ステップごとに潜在オプション u を出力する高レベルのスケジューラを備え、u に条件付けて行動する低レベルのワーカーを持つ、2レベルの HIDIO アーキテクチャ。
- 識別子 qψ を用いて log-q 後方確率 p(u|trajectory) を最大化する内在報酬によるオプション発見。
- 扱いづらい後方確率をパラメータ化された識別子で置き換える下限最適化。
- ワーカーがオプションの部分軌跡を観察するようにメタ MDP を定義し、効果的な識別と報酬割り当てを実現する。
- ワーカーの目的は、内在報酬と最大エントロピーRL目的(SAC)を結合し、安定した学習を図る。
- サブ軌跡特徴量(State、Action、StateDiff、StateAction、StateConcat、ActionConcat)に対する識別子の具象化を評価。
- リプレイバッファを用いたオフポリシー学習、内在報酬のリラベル付け、サンプル効率を改善するための任意の重要度補正。
実験結果
リサーチクエスチョン
- RQ1自己教師ありで学習したタスク非依存の内在オプションは、稀少報酬タスクのパフォーマンスを改善できるか?
- RQ2オプションの部分軌跡に対して識別子はどのように動作すべきか、効果的に多様なオプションを発見するためには?
- RQ3スケジューラとワーカーの共同訓練は、固定オプションを用いてワーカーを事前訓練するよりも優れているか?
- RQ4異なる短視性とオプション長が学習と性能に与える影響は?
- RQ5HIDIO の内在オプションは、操作とナビゲーションタスクにおいて既存の階層RL手法とどう比較されるか?
主な発見
- HIDIO は SAC、SAC+ActRepeat、HIRO、HiPPO よりも最終成功率が高く、4つの多様なタスクでより良いサンプル効率を達成します。
- Action、StateAction、StateDiff などの識別子特徴選択は、一般により強い性能をもたらします。
- 難易度の高いタスクで、スケジューラとワーカーを共同訓練する方が、固定オプションでワーカーを事前訓練するよりも優れている。
- 学習されたオプションは、探索とタスク完遂を促進する低レベルのナビゲーションおよび操作スキルとして機能する。
- HIDIO は、ベースラインが苦戦する難しい稀少報酬タスクを解くことができ、内在的で短期的なオプション発見の価値を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。