QUICK REVIEW

[論文レビュー] Multi-Level Discovery of Deep Options

Roy Fox, Sanjay Krishnan|arXiv (Cornell University)|Mar 24, 2017

Reinforcement Learning in Robotics参考文献 44被引用数 70

ひとこと要約

Discovery of Deep Options (DDO) はデモンストレーションからパラメータ化されたオプションを学習し、多層の階層を構築するとともに、強化学習エージェントを強化して学習を加速する。Atari RAM、GridWorld、外科手術データで実証。

ABSTRACT

Augmenting an agent's control with useful higher-level behaviors called options can greatly reduce the sample complexity of reinforcement learning, but manually designing options is infeasible in high-dimensional and abstract state spaces. While recent work has proposed several techniques for automated option discovery, they do not scale to multi-level hierarchies and to expressive representations such as deep networks. We present Discovery of Deep Options (DDO), a policy-gradient algorithm that discovers parametrized options from a set of demonstration trajectories, and can be used recursively to discover additional levels of the hierarchy. The scalability of our approach to multi-level hierarchies stems from the decoupling of low-level option discovery from high-level meta-control policy learning, facilitated by under-parametrization of the high level. We demonstrate that using the discovered options to augment the action space of Deep Q-Network agents can accelerate learning by guiding exploration in tasks where random actions are unlikely to reach valuable states. We show that DDO is effective in adding options that accelerate learning in 4 out of 5 Atari RAM environments chosen in our experiments. We also show that DDO can discover structure in robot-assisted surgical videos and kinematics that match expert annotation with 72% accuracy.

研究の動機と目的

高次レベルのオプションでエージェントを強化することにより、RLのサンプル複雑さを低減する動機づけ。
デモンストレーションから深いオプション階層を発見するためのスケーラブルな方法を開発する。
低レベルのオプション発見と高レベルのメタ制御を切り離して、マルチレベルの発見を可能にする。
発見されたオプションをDeep Q-Networkエージェントと統合したとき、学習を加速することを示す。
Atari RAM、gridworld、ロボット外科手術を含む多様な領域への適用性を示す。

提案手法

デモンストレーションから階層を推定するための階層的ビヘイビアローニング（HBC）を提案する。
低レベルのオプションと高レベルのメタ制御 η を含む二段階の生成モデルを定式化する。
期待-勾配（EG）アルゴリズムを用いて周辺事後を計算し、オプションおよびメタ制御パラメータを更新する。
発見をソフトクラスタリング問題として扱い、データ点をオプション固有の事後で重み付けする。
レベルを分離するために、単純化された（しばしば一様な）メタ制御方針を用いて階層を反復的に発見することで、より深い階層へ拡張する。
発見されたオプションでDQNのアクション空間を拡張して強化学習を加速させることを示す。

実験結果

リサーチクエスチョン

RQ1DDOはデモンストレーションから有用な深いオプションを信頼性高く発見できるか。
RQ2低レベルのオプション発見と高レベルのメタ制御を切り離すことで、スケーラブルなマルチレベル階層を実現できるか。
RQ3発見されたオプションをDeep Q-Networkエージェントに追加すると学習を加速するか。
RQ4手術タスクなど、人間のデモレーションに解釈可能な構造をDDOが示すことができるか。

主な発見

DDOは、複数の領域で発見されたオプションをアクション空間に追加することでRLを加速する。
Atari RAMの実験では、5つのゲームのうち4つでDDOにより発見されたオプションを用いると学習加速が顕著に見られた。
グリッドワールドの実験では、二レベル階層（H2）の方が単一階層（H1）より高い効果を提供した。
ロボット手術データで発見されたオプションは、専門家の境界との一致で72%の精度を達成（ランダムは14%）した。
表現力の低いメタ制御のパラメータ化は、いくつかの設定で高度に表現力のあるものと同等かそれ以上の性能を示し、スケーラビリティを支援する。
自己生成デモンストレーションから発見されたオプションは、探索をガイドするため、学習を依然として速くする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。