QUICK REVIEW

[論文レビュー] Hierarchical Imitation and Reinforcement Learning

Hoang Le, Nan Jiang|arXiv (Cornell University)|Mar 1, 2018

Reinforcement Learning in Robotics参考文献 36被引用数 27

ひとこと要約

本論文では、長時間にわたるスパースリワード環境におけるエキスパートの作業負荷と探索コストを低減するために、階層的ポリシーの異なるレベルで示強学習（IL）と強化学習（RL）を統合するフレームワーク「階層的ガイダンス」を提案する。高レベルのエキスパートフィードバックを、関連する状態領域でのみ、かつサブタスクが習得されていない場合にのみ低レベルの学習をガイドすることで、階層的RLや標準的なILと比較して、学習速度が速く、ラベル効率が優れている。モンテズマの逆襲と複雑な迷路領域の実験でその有効性が実証された。

ABSTRACT

We study how to effectively leverage expert feedback to learn sequential decision-making policies. We focus on problems with sparse rewards and long time horizons, which typically pose significant challenges in reinforcement learning. We propose an algorithmic framework, called hierarchical guidance, that leverages the hierarchical structure of the underlying problem to integrate different modes of expert interaction. Our framework can incorporate different combinations of imitation learning (IL) and reinforcement learning (RL) at different levels, leading to dramatic reductions in both expert effort and cost of exploration. Using long-horizon benchmarks, including Montezuma's Revenge, we demonstrate that our approach can learn significantly faster than hierarchical RL, and be significantly more label-efficient than standard IL. We also theoretically analyze labeling cost for certain instantiations of our framework.

研究の動機と目的

長時間にわたるスパースリワードタスクにおける強化学習のサンプル非効率性の課題に対処すること。
階層的タスク構造を活用することで、示強学習におけるエキスパートの作業負荷とラベルコストを低減すること。
高レベルのエキスパートフィードバックと低レベルの強化学習を統合し、サンプル効率を向上させること。
学習を関連する状態領域に限定し、かつサブタスクがまだ習得されていない場合にのみ行うフレームワークを開発すること。
階層的ガイダンスが、純粋な階層的RLや標準的なILと比較して、より速い学習と高いラベル効率を実現できることを実証すること。

提案手法

高レベルのエキスパートフィードバックを用いて低レベルポリシー学習をガイドする階層的ガイダンスフレームワークを提案する。
このフレームワークを、純粋な示強学習（例：階層的ガイド付き行動クラーニングやDAgger）およびハイブリッドIL/RL設定に適用する。
高レベルにメタコントローラーを設け、サブタスクを選択する一方で、低レベルポリシーが環境でそれらを実行する。
現在のサブタスクが最適な軌道に含まれる状態領域でのみ低レベル学習を制限することで、サンプル効率を向上させる。
エージェントが最初に正の擬似リワードを受信した後のみ起動する遅延経験リプレイバッファを実装し、長時間にわたる設定での学習を加速する。
成功確率が90％を超えた時点でサブポリシーの学習を終了することで、安定した収束を確保し、不要な訓練を削減する。

実験結果

リサーチクエスチョン

RQ1長時間タスクにおける示強学習のエキスパートラベルコストを低減するために、階層的構造はどのように活用できるか？
RQ2高レベルのILと低レベルのRLを組み合わせることで、純粋な階層的RLよりも学習が速く、サンプル効率が向上するか？
RQ3低レベル学習を関連する状態領域に限定することで、全状態領域での学習と比較して、サンプル効率はどのように向上するか？
RQ4スパースリワードと長い計画ホライズンを持つ環境において、階層的ガイダンスの性能にどのような影響を与えるか？
RQ5高レベルでのエキスパートフィードバックにより、低レベルのエキスパート監視の必要性を減らすことができるか？また、学習速度は維持または向上するか？

主な発見

提案された階層的ガイダンスフレームワークは、未習得のサブタスクと関連する状態領域でのみフィードバックを制限することで、エキスパートの作業負荷を顕著に低減した。
モンテズマの逆襲では、ハイブリッドIL/RLアプローチ（hg-DAgger/Q）が、ベースラインの階層的RL手法h-DQNよりも速く学習し、より高いパフォーマンスを達成した。
サブゴール4（ドア）は長時間にわたるホライズンのため最も困難であったが、焦点を当てた学習と遅延経験リプレイのおかげで成功を収めた。
初期にエキスパートが提供したサブゴールシーケンスと検出器を用いて、自動ラベル付けを可能にすることで、必要な高レベルラベルの数を削減した。
サブゴール1〜3の実行成功確率は90％を超えており、急速な習得が確認された。サブゴール4はより多くの訓練を要したが、フレームワークの下で依然として収束した。
h-DQNのサブゴール数を2つに減らした場合でさえ、フレームワークはそれを上回った。これは、単純な階層的RLに比べ、階層的ガイダンスの優位性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。