Skip to main content
QUICK REVIEW

[論文レビュー] Modular Multitask Reinforcement Learning with Policy Sketches

Jacob Andreas, Dan Klein|arXiv (Cornell University)|Nov 6, 2016
Reinforcement Learning in Robotics参考文献 30被引用数 229
ひとこと要約

本論文は、抽象的なポリシースケッチに導かれたモジュラー多タスク強化学習フレームワークを導入し、高レベルのシンボルごとに再利用可能なサブポリシーを学習し、カリキュラム学習を用いた分離型 actor–critic で最適化する。

ABSTRACT

We describe a framework for multitask deep reinforcement learning guided by policy sketches. Sketches annotate tasks with sequences of named subtasks, providing information about high-level structural relationships among tasks but not how to implement them---specifically not providing the detailed guidance used by much previous work on learning policy abstractions for RL (e.g. intermediate rewards, subtask completion signals, or intrinsic motivations). To learn from sketches, we present a model that associates every subtask with a modular subpolicy, and jointly maximizes reward over full task-specific policies by tying parameters across shared subpolicies. Optimization is accomplished via a decoupled actor--critic training objective that facilitates learning common behaviors from multiple dissimilar reward functions. We evaluate the effectiveness of our approach in three environments featuring both discrete and continuous control, and with sparse rewards that can be obtained only after completing a number of high-level subgoals. Experiments show that using our approach to learn policies guided by sketches gives better performance than existing techniques for learning task-specific or shared policies, while naturally inducing a library of interpretable primitive behaviors that can be recombined to rapidly adapt to new tasks.

研究の動機と目的

  • 高レベルの行動を環境の詳細に grounding せずに階層ポリシーを学習する動機付け。
  • 各高レベルシンボルに再利用可能なサブポリシーを関連付けるモジュラーなサブポリシーアーキテクチャを提示する。
  • モジュラーな多タスクポリシーに適した分離型 actor–critic トレーニング目的を開発する。
  • カリキュラム学習を用いたトレーニングを実演し、ゼロショットおよび適応設定への一般化を評価する。

提案手法

  • タスクに高レベルシンボルのシーケンスからなるスケッチを付与する。
  • 各シンボルに専用のサブポリシーを割り当て、同じシンボルを用いる複数のタスク間でサブポリシーを共有する。
  • 各タスクポリシーをそのサブタスクの連結として扱い、次のサブポリシーへ進むためのストップ機構を用いて実行する。
  • 勾配分散を抑えるため、タスク依存・状態依存のクリティックを用いた分離型 actor–critic 目的を適用する。
  • 長いスケッチや難しいタスクに段階的に対処するためにカリキュラム学習を組み込む。

実験結果

リサーチクエスチョン

  • RQ1スケッチ付きポリシーは、詳細を grounding することなく複数のタスクにわたる高速かつモジュラーな学習を可能にする十分な指針を提供できるか。
  • RQ2スケッチから学習された共有サブポリシーは、非モジュラーなベースラインと比較してサンプル効率と性能を向上させるか。
  • RQ3モジュラーなサブポリシーをスケッチに guided して用いた場合、ゼロショットおよび adaptation シナリオはどうなるか。
  • RQ4カリキュラム設計とタスク依存・状態依存のベースラインが学習効率に与える影響はどれほどか。

主な発見

  • モジュラーなスケッチガイド付き学習は、crafting、maze、cliff 環境でタスク固有または完全共有ポリシーを学習するベースラインよりも著しく上回る。
  • このアプローチは、新しいタスクに再構成できる解釈可能な原始ポリシーのライブラリを誘導する。
  • 状態依存・タスク依存のクリティックを用いた共同トレーニングは、一定のベースラインよりも収束を早める。
  • カリキュラム要素(長さベースのタスクサンプリングと報酬ベースのタスクサンプリング)は収束速度を改善する。
  • ゼロショットおよび適応実験は、ベースラインが苦戦する領域で強い一般化を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。