QUICK REVIEW

[論文レビュー] Near-Optimal Representation Learning for Hierarchical Reinforcement Learning

Ofir Nachum, Shixiang Gu|arXiv (Cornell University)|Oct 2, 2018

Reinforcement Learning in Robotics参考文献 36被引用数 63

ひとこと要約

この論文は、目標条件付き階層的強化学習における表現のサブ最適性指標を提案し、表現の質とポリシー性能との関係を結ぶ境界を導出し、近似最適な階層ポリシーを得る実用的な学習目的を提案する。

ABSTRACT

We study the problem of representation learning in goal-conditioned hierarchical reinforcement learning. In such hierarchical structures, a higher-level controller solves tasks by iteratively communicating goals which a lower-level policy is trained to reach. Accordingly, the choice of representation -- the mapping of observation space to goal space -- is crucial. To study this problem, we develop a notion of sub-optimality of a representation, defined in terms of expected reward of the optimal hierarchical policy using this representation. We derive expressions which bound the sub-optimality and show how these expressions can be translated to representation learning objectives which may be optimized in practice. Results on a number of difficult continuous-control tasks show that our approach to representation learning yields qualitatively better representations as well as quantitatively better hierarchical policies, compared to existing methods (see videos at https://sites.google.com/view/representation-hrl).

研究の動機と目的

目標条件付き階層的RLにおける状態圧縮とサブタスクの表現力のバランスを促すための表現学習の動機付け。
与えられた表現を用いた最適階層ポリシーの報酬に基づく正式なサブ最適性指標を定義する。
表現の選択が階層ポリシーの性能にどのように影響するかを示す境界を導出し、これを実践的な学習目的と結びつける。
サブ最適性を制限し、実践的に最適化可能な表現学習目的と補助的逆モデルを提案する。

提案手法

上位レベルが学習された表現空間内でゴールを選択し、下位レベルがそのゴールへ到達するように作用する2レベルの階層ポリシーをモデル化する。
状態-ゴールペアを下位レベルの挙動へ翻訳する写像 Psi を導入し、完全に表現力のあるベースラインとのギャップに関してサブ最適性を分析する。
SubOpt(Psi) を真の動力学と表現ベースの動力学の乖離と結びつける理論的境界（Theorems 1 and 3, Claims 2 and 4）を導出する。
真の次状態分布と学習されたエネルギーベースモデル K の間の距離関数 D を用いたKL/発散に基づく表現学習目的を定義する。
f（表現）と補助モデル varphi を最適化してサブ最適性を束縛する実用的な学習目的（Equation 11–15）を開発する。
枠組みを時間的抽象化（c>1）および一般化ポリシー（Equation 9）へ拡張し、それぞれに対応する境界を示す。

実験結果

リサーチクエスチョン

RQ1表現 f の選択が、固定された下位マッピング Psi を用いた場合に階層ポリシーのサブ最適性にどのように影響するか？
RQ2表現誘導の制約により生じるリターンの損失を境界として、これを実用的な表現学習目的へ翻訳できるか？
RQ3時間的抽象化（c > 1）はサブ最適性の境界と学習可能な表現にどのような影響を与えるか？
RQ4階層RLにおける情報理論に基づく目的と提案する表現学習境界との関係はどうなるか？
RQ5学習された表現は、完全な状態表現やオラクル表現を用いる場合と比べて難易度の高い連続制御タスクで近似最適な性能を達成できるか？

主な発見

原理的な境界を持つ表現学習目的は、階層ポリシーのリターンが最適ポリシーに近づくよう、有限の誤差内で達成することを示す。
この枠組みは表現学習をサブ最適性に直接結びつけ、状態からゴールへの写像における情報損失を低減する実用的な学習目的を可能にする。
連続制御タスクでの実証的結果は、画像観測を含むシナリオを含め、ベースラインよりも質的・量的な利点を示す。
学習された表現は、報酬構造と一致する他の座標（例：ブロックの位置など）を重視する傾向があり、タスク関連の座標を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。