QUICK REVIEW

[論文レビュー] Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning

Tianren Zhang, Shangqi Guo|arXiv (Cornell University)|Jun 20, 2020

Reinforcement Learning in Robotics参考文献 44被引用数 29

ひとこと要約

本稿では、ゴール条件付き階層強化学習（HRL）における高レベルの行動空間の縮小を目的として、kステップ隣接制約を提案する。この制約により、現在の状態からkステップ以内に到達可能な状態に制限されたサブゴールの生成が可能となり、学習の効率が向上する。本手法は決定的MDPにおいて最適方策を保持し、学習可能な隣接ネットワークを用いて制約を強制する。離散的および連続的制御タスクにおいて、HIROなどの最先端HRL手法と比較して、より高いサンプル効率と漸近的性能を示している。

ABSTRACT

Goal-conditioned hierarchical reinforcement learning (HRL) is a promising approach for scaling up reinforcement learning (RL) techniques. However, it often suffers from training inefficiency as the action space of the high-level, i.e., the goal space, is often large. Searching in a large goal space poses difficulties for both high-level subgoal generation and low-level policy learning. In this paper, we show that this problem can be effectively alleviated by restricting the high-level action space from the whole goal space to a $k$-step adjacent region of the current state using an adjacency constraint. We theoretically prove that the proposed adjacency constraint preserves the optimal hierarchical policy in deterministic MDPs, and show that this constraint can be practically implemented by training an adjacency network that can discriminate between adjacent and non-adjacent subgoals. Experimental results on discrete and continuous control tasks show that incorporating the adjacency constraint improves the performance of state-of-the-art HRL approaches in both deterministic and stochastic environments.

研究の動機と目的

ゴール条件付きHRLにおける学習非効率性の原因である、大きな高レベル行動空間（すなわち、全ゴール空間）を解消すること。
高レベル行動をkステップ隣接サブゴールに制約することにより、探索負荷を軽減し、価値関数の近似を改善すること。
高レベル行動空間を顕著に縮小しつつも、階層方策の最適性を維持すること。
トレーニング可能な隣接ネットワークを用いて、隣接サブゴールと非隣接サブゴールを区別することで、隣接制約の実用的実装を可能とすること。
より頻繁で意味のある内因的報酬を提供することで、低レベル方策の学習を改善すること。

提案手法

現在の状態からkステップ以内の遷移距離にあるサブゴールに制限されたkステップ隣接制約を提案する。
理論的に、この制約が決定的MDPにおいて最適階層方策を保持することを証明する。
対照的学習を用いて訓練される隣接ネットワークを導入し、与えられたサブゴールが現在の状態のkステップ隣接領域内にあるかどうかを分類する。
隣接ネットワークを用いて高レベル行動をフィルタリングし、関連性があり近隣のサブゴールのみを有効な行動として制限する。
高レベル方策が隣接サブゴールのみを選択するように、ゴール条件付きHRLフレームワークに隣接制約を統合する。低レベル方策は、それらのサブゴールに到達するように訓練される。
一般化を可能にするために、相互情報量に基づく目的関数を用いて隣接ネットワークを訓練する。

実験結果

リサーチクエスチョン

RQ1kステップ隣接サブゴールに制限された高レベル行動空間が、決定的MDPにおいて最適階層方策を保持できるか。
RQ2ドメイン特異的知識や環境のダイナミクスに依存せずに、kステップ隣接制約を実用的に実装する方法は何か。
RQ3隣接制約は、離散的および連続的制御タスクにおいて、サンプル効率と漸近的性能を向上させるか。
RQ4隣接ネットワークは、タスク固有の設計を必要とせず、さまざまな環境やタスクに一般化できるか。
RQ5HIROなどの最先端HRL手法と比較して、学習速度および最終的性能において、本手法はどのように差をつけるか。

主な発見

kステップ隣接制約は決定的MDPにおいて最適階層方策を保持し、その有用性に理論的根拠を与える。
隣接ネットワークは、隣接サブゴールと非隣接サブゴールを効果的に識別する能力を学習し、制約の実用的実装を可能にする。
MuJoCo連続制御タスクにおいて、HIROと比較して最大2.5倍のサンプル効率向上と最大30％の漸近的性能向上を達成した。
離散的グリッドワールド環境では、ベースラインHRL手法と比較して、より高い成功確率とより速い収束を達成した。
隣接ネットワークは、スパarsity報酬や長時間スケール計画を伴う環境を含め、さまざまなタスクや環境に良好に一般化した。
確率的および決定的環境の両方において、多様な評価指標でSOTA HRL手法を上回るロバスト性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。