QUICK REVIEW

[論文レビュー] Hierarchical Reinforcement Learning with Timed Subgoals

Nico Gürtler, Dieter Büchler|arXiv (Cornell University)|Dec 6, 2021

Reinforcement Learning in Robotics被引用数 8

ひとこと要約

本稿では、タイムドサブゴール（HiTS）を用いた階層的強化学習を提案する。この手法は、高レベル方策がサブゴールと正確な時間制約を同時に指定できることで、動的環境におけるサンプル効率の高い学習を向上させる。タイムドサブゴールとヘリテージアクション再ラベル化を組み合わせることで、遷移時間の非定常性を排除し、訓練を安定化させ、低レベル方策の改善に伴っても同時に学習を可能にする。この方法は、従来の手法が安定した方策を学習できない困難な動的環境において、最先端のベースラインを上回る性能を発揮する。

ABSTRACT

Hierarchical reinforcement learning (HRL) holds great potential for sample-efficient learning on challenging long-horizon tasks. In particular, letting a higher level assign subgoals to a lower level has been shown to enable fast learning on difficult problems. However, such subgoal-based methods have been designed with static reinforcement learning environments in mind and consequently struggle with dynamic elements beyond the immediate control of the agent even though they are ubiquitous in real-world problems. In this paper, we introduce Hierarchical reinforcement learning with Timed Subgoals (HiTS), an HRL algorithm that enables the agent to adapt its timing to a dynamic environment by not only specifying what goal state is to be reached but also when. We discuss how communicating with a lower level in terms of such timed subgoals results in a more stable learning problem for the higher level. Our experiments on a range of standard benchmarks and three new challenging dynamic reinforcement learning environments show that our method is capable of sample-efficient learning where an existing state-of-the-art subgoal-based HRL method fails to learn stable solutions.

研究の動機と目的

低レベル方策の改善に伴って変化する遷移時間の非定常性が引き起こす階層的強化学習（HRL）の不安定性を是正すること。
外部の動的要因（例えば移動する物体）がタスク実行のタイミングに影響を与える動的環境において、階層の各レベルで同時に学習を可能にすること。
静的環境を仮定する従来のサブゴールベースHRL手法の限界を克服し、低レベル方策の高速化に伴う遷移時間の変化に失敗しないこと。
移動するターゲットや時間的に制限のある相互作用を含む動的要素を含む長時間スパンのタスクに対して、安定的でサンプル効率の高い学習フレームワークを提供すること。
タイムドサブゴールを用いることで、高レベル方策が時間的抽象化を明示的に推論できることで、耐障害性と収束性が向上することを示すこと。

提案手法

目的状態（サブゴール）とその到達を求める時間帯を同時に指定するタイムドサブゴールを導入し、高レベル方策が遷移タイミングを明示的に制御できるようにする。
高レベル方策と環境の相互作用を、遷移時間が非確率的である半マルコフ決定過程（SMDP）として定式化し、時間制約のおかげで遷移時間が不変となるようにする。
タイムドサブゴールとヘリテージアクション再ラベル化を組み合わせることで、サブゴール空間における非定常性を隠蔽し、オフポリシー学習と安定した訓練を可能にする。
二段階のHRLアーキテクチャを採用：高レベル方策がタイムドサブゴールを選択し、低レベル方策が指定された時間窓内にサブゴールに到達するように行動を実行する。
低レベル方策に対して、サブゴールへの距離に基づく密な報酬形状を適用し、時間的到達までの最小化を重視しながら時間制約を尊重するようにする。
低レベル方策がサブゴールに到達できない場合に高レベル方策に報酬ペナルティを課すことで、現実的でないサブゴールの選択を抑制する。

実験結果

リサーチクエスチョン

RQ1サブゴールに明示的な時間制約を設けることで、学習中に遷移時間が変化する動的環境におけるHRLの安定性が向上するか？
RQ2タイムドサブゴールとヘリテージアクション再ラベル化を組み合わせることで、高レベル方策が認識する有効なSMDPにおける遷移時間分布の非定常性が解消されるか？
RQ3HiTSは、従来のサブゴールベースHRL手法が失敗するような動的要素を含む長時間スパンのタスクにおいて、安定的かつサンプル効率の高い学習を達成できるか？
RQ4タイムドサブゴールの使用は、標準的なサブゴールベースHRLと比較して、高レベル方策の収束性とサンプル効率にどのように影響するか？
RQ5HiTSは、正確な時間的調整を要する新しい動的環境に、どの程度一般化可能か？

主な発見

HiTSは、テニスボールの捕らえや動的ナビゲーションなど、3つの新しい動的ベンチマーク環境において、最先端のサブゴールベースHRLベースラインが収束に失敗する中で、安定した方策を学習することに成功した。
従来のHRL手法と比較して、標準ベンチマーク（例：AntMaze、HalfCheetah）において性能の分散が著しく低く抑えられており、訓練の安定性が向上していることが示された。
ヘリテージアクション再ラベル化とタイムドサブゴールの組み合わせにより、SMDPの遷移時間分布における非定常性が効果的に除去され、階層の各レベル間での安定した同時学習が可能になった。
HalfCheetah や AntMaze といった標準ベンチマークにおいて、HiTSは既存のSOTA手法と同等またはそれ以上の性能を達成しており、収束が速く、サンプル複雑度も低い。
わずかな非定常性要因（例：評価遷移時）が残存しても、アルゴリズムは依然として頑健であることが実験で示され、理想化された仮定を超えた実用的妥当性を示している。
実験により、HiTSの高レベル方策は、移動するボールなどの動的環境要因と明示的なサブゴールのタイミングを用いて協調することで、正確な干渉を可能にしていることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。