QUICK REVIEW

[論文レビュー] The Option Keyboard: Combining Skills in Reinforcement Learning

André Barreto, Diana Borsa|arXiv (Cornell University)|Jan 1, 2019

Reinforcement Learning in Robotics被引用数 38

ひとこと要約

本論文では、線形空間における擬似報酬（累積量）の操作によってスキルを組み合わせる階層的強化学習アプローチ、Option Keyboardフレームワークを提案する。決定的オプションを拡張された状態-行動空間における累積量として表現することで、学習済み累積量の線形結合により新しいオプションを即座に合成可能となり、再訓練を伴わずに複雑なタスクにおいて優れたサンプル効率と性能を達成する。

ABSTRACT

The ability to combine known skills to create new ones may be crucial in the solution of complex reinforcement learning problems that unfold over extended periods. We argue that a robust way of combining skills is to define and manipulate them in the space of pseudo-rewards (or "cumulants"). Based on this premise, we propose a framework for combining skills using the formalism of options. We show that every deterministic option can be unambiguously represented as a cumulant defined in an extended domain. Building on this insight and on previous results on transfer learning, we show how to approximate options whose cumulants are linear combinations of the cumulants of known options. This means that, once we have learned options associated with a set of cumulants, we can instantaneously synthesise options induced by any linear combination of them, without any learning involved. We describe how this framework provides a hierarchical interface to the environment whose abstract actions correspond to combinations of basic skills. We demonstrate the practical benefits of our approach in a resource management problem and a navigation task involving a quadrupedal simulated robot.

研究の動機と目的

単純なポリシー合成を超えた、学習済みスキルの組み合わせに関する課題に取り組むこと。
ポリシーではなく擬似報酬（累積量）の空間で操作することにより、再訓練を伴わず即座に新しいオプションを合成可能とすること。
抽象的行動が基本的スキルの組み合わせに対応する階層的インターフェースを提供し、時間的抽象化と計画性を向上させること。
線形累積量の組み合わせが、単純なシーケンスや混合では得られない真に新しい、非自明な行動を生成できることを示すこと。

提案手法

決定的オプションを拡張された状態-行動空間における累積量として表現し、オプションから累積量への明確なマッピングを可能にする。
後続特徴（successor features）を活用して、既知の累積量の線形結合に対する効率的な一般化ポリシー評価（GPE）を実現する。
一般化ポリシー改善（GPI）を用いて、複数の価値関数を組み合わせた累積量の下で改善されたポリシーを導出する。
基本累積量の線形結合として新しいオプションを合成し、追加の訓練を必要とせずに即座に展開可能とする。
オプション形式を用いてフレームワークを形式化し、時間的抽象化と目的指向行動を保証する。
Q学習およびDPGベースのエージェントを用いて、MuJoCoにおけるリソース管理タスクと四足歩行ナビゲーションタスクの2つの環境に本手法を適用する。

実験結果

リサーチクエスチョン

RQ1再訓練を伴わず、擬似報酬（累積量）の空間でスキルを効果的に組み合わせることで、新しい有用な行動を生成できるか？
RQ2従来のポリシー結合や基本的オプション学習と比較して、線形累積量の組み合わせによるオプション結合は、サンプル効率と性能においてどのように異なるか？
RQ3本手法は、在庫や状態に基づく変化する望ましさ関数を伴う動的報酬構造を処理できるか？
RQ41つの事前学習済みオプションセットが、動的結合によって多様で複雑なタスクをどの程度カバーできるか？
RQ5構造的報酬変化が生じる環境において、Option Keyboardフレームワークはフラットな強化学習エージェントと比較して、収束速度が速く、より優れた漸近的性能を達成できるか？

主な発見

Option Keyboardフレームワークは、累積量の線形結合により、初期のオプション学習後は追加訓練を要せず、即座に新しいオプションを合成可能である。
リソース管理タスクでは、組み合わせオプション（QP(3)-i）が、フラットなQ学習エージェント（QL）および基本的オプションエージェント（QO）を上回り、特に動的報酬シフト下でも顕著な優位性を示した。
四足歩行ナビゲーションタスクでは、報酬構造が時間とともに変化する状況でも、Option KeyboardがベースラインのQ学習エージェントよりも収束が速く、漸近的性能が優れていた。
栄養素に対する負の報酬領域のような複雑なシナリオにおいても、本手法は正常に動作し、基本的オプションが最適でない行動を示す中で回復を可能にし、性能を向上させた。
負の重みを含む組み合わせ（例：w3 = (1, -1)）を追加することで、望ましさ関数が変化するシナリオでの性能が著しく向上し、本手法が非自明な行動の組み合わせを捉える能力を示した。
QP(8)エージェント（多様な組み合わせを検討）は、すべてのシナリオにおいて、すべてのベースラインと同等またはそれを上回る性能を示し、未知のダイナミクスに対してもロバストで適応可能であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。