QUICK REVIEW

[論文レビュー] Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning

Tianmin Shu, Caiming Xiong|arXiv (Cornell University)|Dec 20, 2017

Robot Manipulation and Learning参考文献 14被引用数 57

ひとこと要約

要約: この論文は、トップレベルのポリシーを介して以前に学習したスキルを再利用する階層的で言語 grounded な多タスク強化学習フレームワークを提示し、スキルの再利用時期や新規学習を導く確率的時相文法によって支えられ、Minecraft/Malmo のタスクで実証している。

ABSTRACT

Learning policies for complex tasks that require multiple different skills is a major challenge in reinforcement learning (RL). It is also a requirement for its deployment in real-world scenarios. This paper proposes a novel framework for efficient multi-task reinforcement learning. Our framework trains agents to employ hierarchical policies that decide when to use a previously learned policy and when to learn a new skill. This enables agents to continually acquire new skills during different stages of training. Each learned task corresponds to a human language description. Because agents can only access previously learned skills through these descriptions, the agent can always provide a human-interpretable description of its choices. In order to help the agent learn the complex temporal dependencies necessary for the hierarchical policy, we provide it with a stochastic temporal grammar that modulates when to rely on previously learned skills and when to execute new skills. We validate our approach on Minecraft games designed to explicitly test the ability to reuse previously learned skills while simultaneously learning new skills.

研究の動機と目的

階層性と言語 grounding を通じて習得済みスキルを再利用することで、効率的な多タスク強化学習を促進する。
タスク蓄積カリキュラムを通じて訓練段階間で継続的なスキル蓄積を可能にする。
人間の言語で方針と計画を説明できるよう、解釈性を提供する。
確率的時相文法を組み込み、タスク間の時間的依存をモデル化する。
Minecraft 環境で学習効率と汎化性の向上を示す。

提案手法

ベースポリシー（前の段階）、指示ポリシー、拡張平坦ポリシー、スイッチポリシーの4部構成の階層的ポリシーを導入し、 base vs. new action を決定する。
解釈性と grounding を高めるために、人間の指示でタスクを表現する。
基底スキルと新規スキル間の時相遷移を prior としてモデル化する確率的時相文法（STG）を導入する。
Advantage Actor-Critic (A2C) でポリシーを訓練し、正のエピソードから STG の確率を推定する。
各段階でベーススキル獲得（既存スキルの再利用）を行い、その後に新規スキル獲得（新しいスキルの学習）を行う2段階カリキュラムを採用する。
スイッチと指示の意思決定に STG の priors を組み込み、探索と計画実行を導く。

実験結果

リサーチクエスチョン

RQ1以前に学習したスキルを再利用して新しいスキルを獲得する階層ポリシーを多タスク強化学習エージェントは学習できるか。
RQ2人間の言語 grounding によってポリシーの解釈性と計画構成が改善されるか。
RQ3確率的時相文法がタスク間の時間的依存をモデル化することにより効率と精度が改善されるか。
RQ42段階カリキュラム（ベース then novel skills）が、進行的に拡張するタスクセットにおける学習効率と一般化性にどう影響するか。

主な発見

完全な階層モデルは、すべてのタスクセットにおいて平坦な基準モデルよりも収束が速く、平均報酬が高い。
モデルは、より大きな部屋やディストラクターを用いた一般化が向上し、平坦ポリシーと比較して良好な性能を示す。
階層的な計画は視覚的に解釈可能で、高位のポリシーが低位スキルを人間の指示を用いて組み合わせる様子を示す。
2段階のカリキュラムは学習を加速し、カリキュラム効果はより速い段階遷移と最終パフォーマンスの向上として現れる。
アブレーション実験では、STG の除去、更新の交互実施、スイッチ値関数の除去が性能を劣化させることが示され、これらの要素の重要性を示している。
定量的結果（表1）は、全タスクで小部屋および大部屋の両方で完全モデルの成功率が高いことを示している（Find x, Get x, Put x, Stack x）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。