Skip to main content
QUICK REVIEW

[論文レビュー] Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

Junhyuk Oh, Satinder Singh|arXiv (Cornell University)|Jun 15, 2017
Reinforcement Learning in Robotics参考文献 39被引用数 114
ひとこと要約

本論文は、未知のサブタスクへ一般化するためのアナロジー形成目的を用いてパラメータ化されたスキルを学習する2段階の階層RLフレームワークを提案し、その後、指示列を実行できるメタコントローラが登場、割り込み/サブタスク更新を可能にする新しい大規模時間スケール学習メカニズムを用いる。

ABSTRACT

As a step towards developing zero-shot task generalization capabilities in reinforcement learning (RL), we introduce a new RL problem where the agent should learn to execute sequences of instructions after learning useful skills that solve subtasks. In this problem, we consider two types of generalizations: to previously unseen instructions and to longer sequences of instructions. For generalization over unseen instructions, we propose a new objective which encourages learning correspondences between similar subtasks by making analogies. For generalization over sequential instructions, we present a hierarchical architecture where a meta controller learns to use the acquired skills for executing the instructions. To deal with delayed reward, we propose a new neural architecture in the meta controller that learns when to update the subtask, which makes learning more efficient. Experimental results on a stochastic 3D domain show that the proposed ideas are crucial for generalization to longer instructions as well as unseen instructions.

研究の動機と目的

  • RL内部でサブタスク間のアナロジーを学習することにより、未知のサブタスクへのゼロショット一般化を開発する。
  • 訓練時に見られなかったより長い指示列への一般化を可能にする。
  • すべての指示を完了した後にのみ報酬が得られる遅延報酬を扱う。
  • 予期せぬ事象による割り込みをサポートするため、動的なサブタスク更新を許す。
  • 事前に学習したサブタスクを組み合わせて指示リストを実行する階層的アーキテクチャを提供する。

提案手法

  • 観測とタスクパラメータを行動と終了シグナルへ写像するパラメータ化スキルを導入し、マルチタスク方策学習を可能にする。
  • 未知のサブタスクへ一般化を可能にするよう、類似・非類似・差異制約を含む対比損失を用いたアナロジー形成目的を提案する。
  • パラメータ化スキルをアクタークリティック法(A2C/GAE)で学習し、転送を高めるためにオプションとしてポリシーディスティレーションを用いる。
  • サブタスク用の生成的スキル学習器と、指示リストを読み取りサブタスクパラメータを選択するメタコントローラからなる2段階アーキテクチャを開発する。
  • 前のサブタスクと終了シグナルを組み込むコンテクストLSTMを備えた新規のメタコントローラと、より大きな時間スケールで動作するソフトアップデート機構を用いるサブタスクアップデータを設計する。
  • 指示列に対するソフトアテンションを介して指示を取得・シフトするメモリ対応の指示アップデータを実装し、サブタスクパラメータのワンステップ更新を可能にする。

実験結果

リサーチクエスチョン

  • RQ1提案されたアナロジー形成目的は、パラメータ化スキル内の未知のサブタスクへゼロショット一般化を可能にするか。
  • RQ2階層的なメタコントローラを用いる場合、未知の指示列やより長い指示列への一般化は拡張されるか。
  • RQ3サブタスクを更新する時期を決定するメタコントローラの能力は、遅延報酬や割り込みの下で性能を向上させるか。
  • RQ4大きな時間スケールでの動作(ソフトアップデートを介して)は、学習効率と予期せぬ事象への対応性にどう影響するか。
  • RQ5提案手法は、非階層的ベースラインや他の階層RLバリアントよりも、指示実行タスクで優れているか。

主な発見

  • アナロギーに基づく一般化は、いくつかの一般化シナリオで未知のパラメータ化サブタスクへの転送を成功裡に可能にする。
  • メタコントローラを含む階層アーキテクチャは、未知のシーケンスを含む指示列の実行で、いくつかのベースラインより優れている。
  • サブタスクの更新時期を学習する(ダイナミックな時間スケール)は、逐次更新や終了時のみ更新と比べて、遅延報酬や割り込み下で性能を大幅に向上させる。
  • 大規模時間スケールのメタコントローラ(ソフトアップデートを用いる)は、固定時間スケールの変種より訓練効率と予期せぬ事象への頑健性が高い。
  • Minecraft風の3Dドメインの実験で、本手法は長い指示列や未知の指示へ一般化し、動的更新機構を用いると顕著な利益が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。