QUICK REVIEW

[論文レビュー] Option Discovery in Hierarchical Reinforcement Learning using Spatio-Temporal Clustering

Aravind S. Lakshminarayanan, Ramnandan Krishnamurthy|arXiv (Cornell University)|May 17, 2016

Reinforcement Learning in Robotics参考文献 26被引用数 27

ひとこと要約

本稿では、状態空間内の遷移構造と報酬構造を統合して、PCCA+スペクトルクラスタリングを用いて空間的・時間的クラスタリングによりメタ安定領域を特定することで、タスクに依存しないオプションを自動で発見する階層的強化学習フレームワークを提案する。状態空間の構造的特徴を活用し、メンバー関数の上昇勾配探索により追加の学習を必要としないオプション政策を構築することで、代表的状態集合による状態集約を介して、大規模な状態空間でも効率的な再利用が可能となる。

ABSTRACT

This paper introduces an automated skill acquisition framework in reinforcement learning which involves identifying a hierarchical description of the given task in terms of abstract states and extended actions between abstract states. Identifying such structures present in the task provides ways to simplify and speed up reinforcement learning algorithms. These structures also help to generalize such algorithms over multiple tasks without relearning policies from scratch. We use ideas from dynamical systems to find metastable regions in the state space and associate them with abstract states. The spectral clustering algorithm PCCA+ is used to identify suitable abstractions aligned to the underlying structure. Skills are defined in terms of the sequence of actions that lead to transitions between such abstract states. The connectivity information from PCCA+ is used to generate these skills or options. These skills are independent of the learning task and can be efficiently reused across a variety of tasks defined over the same model. This approach works well even without the exact model of the environment by using sample trajectories to construct an approximate estimate. We also present our approach to scaling the skill acquisition framework to complex tasks with large state spaces for which we perform state aggregation using the representation learned from an action conditional video prediction network and use the skill acquisition framework on the aggregated state space.

研究の動機と目的

タスク固有の知識や専門家のデモンストレーションなしに、階層的強化学習におけるスキル発見を自動化すること。
潜在的なMDP構造に整合するメタ安定領域を検出することで、状態空間における自然な抽象化を同定すること。
効率的な抽象状態間のナビゲーションを可能にする、再利用可能でタスクに依存しないオプションを生成すること。
代表的表現学習と状態集約を用いて、Atariゲームのような大規模な状態空間へのスケーラビリティを実現すること。
抽象化プロセスに遷移ダイナミクスと報酬構造を統合し、より優れたオプション意味論を得ること。

提案手法

サンプル軌道から導出された遷移行列に対してPCCA+スペクトルクラスタリングを適用し、状態空間をメタ安定領域に分割することで、抽象状態を定義する。
指数的重み付けスキームを用いて報酬構造を遷移行列に組み込み、構造的抽象化に加えて機能的抽象化（例：ゴール状態）を反映する。
宛先抽象状態のメンバー関数に対する上昇勾配探索によりオプション方策を構築し、追加の学習を不要にする。
大規模状態空間環境向けに、事前学習済みの行動条件付き動画予測ネットワークを用いて、空間的・時間的に意味のある低次元の潜在表現を学習する。
集約された状態空間をPCCA+クラスタリングパイプラインの入力とすることで、Seaquestのような複雑な環境へのスケーラビリティを実現する。
PCCA+から得られる接続性情報を利用して、抽象状態間の有効なオプション遷移を定義し、構造的整合性を確保する。

実験結果

リサーチクエスチョン

RQ1スペクトルクラスタリングを用いて、モデルなしでサンプル軌道から状態空間内のメタ安定領域を自動的に同定できるか？
RQ2構造的（遷移に基づく）抽象化と機能的（報酬に基づく）抽象化を、オプション発見プロセスにどのように統合できるか？
RQ3得られたオプションは、同じ潜在的なMDP構造を持つ複数のタスク間で再利用可能か？再学習を必要としないか？
RQ4高次元観測を持つAtariゲームのような大規模な状態空間に、このフレームワークをどのようにスケーリングできるか？
RQ5報酬構造を統合することで、発見されたオプションの意味的整合性とタスク効率はどの程度向上するか？

主な発見

PCCA+は、報酬の組み込みの有無に関わらず、3ルームドメインで各ルームに対応する3つの抽象状態を正しく同定した。
報酬構造の組み込みにより、ゴールタイルに対応する第4の抽象状態が出現し、機能的抽象化の発見が示された。
宛先抽象状態のメンバー関数に対する上昇勾配探索によりオプション方策が生成され、追加の学習なしに部屋間の正しいナビゲーションが達成された。
Seaquest環境では、行動条件付き動画予測ネットワークから学習した表現を用いることで、フレームワークのスケーラビリティが有効に発揮された。
酸素を補充するために水面に浮上するための学習済みオプションは、メンバー関数の可視化により意味的に明確で視覚的に解釈可能であった。
抽象状態間の遷移に限定した計画によりタスクの簡略化が可能となり、サンプル効率とタスク間一般化性能が顕著に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。