QUICK REVIEW

[論文レビュー] DAC: The Double Actor-Critic Architecture for Learning Options

Shangtong Zhang, Shimon Whiteson|arXiv (Cornell University)|Apr 29, 2019

Reinforcement Learning in Robotics参考文献 38被引用数 31

ひとこと要約

本稿では、オプションフレームワークを2つの拡張されたMDPに再定式化することで、任意のポリシー最適化アルゴリズムをそのまま適用可能にする新しいアーキテクチャ、DAC（Double Actor-Critic）を提案する。これにより、オプション内でのポリシー最適化とマスターポリシーの学習を、オプション内フレームワークで行える。DACは、困難なロボットシミュレーションタスクにおける転移学習で最先端の性能を達成し、階層フリーなベースラインや先行の勾配ベースのオプション学習手法を上回る。

ABSTRACT

We reformulate the option framework as two parallel augmented MDPs. Under this novel formulation, all policy optimization algorithms can be used off the shelf to learn intra-option policies, option termination conditions, and a master policy over options. We apply an actor-critic algorithm on each augmented MDP, yielding the Double Actor-Critic (DAC) architecture. Furthermore, we show that, when state-value functions are used as critics, one critic can be expressed in terms of the other, and hence only one critic is necessary. We conduct an empirical study on challenging robot simulation tasks. In a transfer learning setting, DAC outperforms both its hierarchy-free counterpart and previous gradient-based option learning algorithms.

研究の動機と目的

オプションフレームワークにおけるポリシー基盤のオプション内学習に、理論的かつ実験的根拠が不足している問題に対処すること。
既存の勾配ベースのオプション学習アルゴリズムが、SMDP固有の設計を必要とし、高度なMDPポリシー最適化手法の直接適用を妨げているという制限を克服すること。
標準のポリシー最適化アルゴリズムを用いて、データ効率的かつオンラインで、オプション内ポリシーとマスターポリシーの両方を学習可能にする。
オプション学習問題を2つの拡張されたMDPとして統一的かつ明示的に定式化し、モジュラーかつスケーラブルな学習を可能にすること。

提案手法

オプションフレームワークの半マルコフ決定過程（SMDP）を、オプション内ポリシー学習用とマスターポリシー学習用の2つの並列された拡張MDPに再定式化する。
各拡張MDP上で別々にアクターキャッチャー法を適用し、ダブルアクターキャッチャー（DAC）アーキテクチャを構築する。
状態価値関数をキャッチャーとして使用する場合、一方のキャッチャーを他方の関数で表現できることを示し、必要なキャッチャー数を1つに削減できる。
コール・リターン実行モデルを用いて、オプション実行中にマスターポリシーのオンライン更新を保証し、オプション内学習を可能にする。
アーキテクチャの変更なしに、標準のポリシー最適化アルゴリズム（例：PPO）を拡張MDPに直接適用可能にする。
オプション終了関数とマスターポリシーの相互作用を、単一の階層的ポリシー ${\pi}^{\mathcal{H}}$ の一部として明示的にモデル化する。

実験結果

リサーチクエスチョン

RQ1標準のポリシー最適化アルゴリズムを用いて、オプションフレームワークにおけるオプション内ポリシーとマスターポリシーの両方を統一的かつそのまま適用可能なフレームワークを開発できるか？
RQ22つの拡張MDPへの再定式化により、オプション実行中にマスターポリシーのデータ効率的かつオンライン学習が可能になるか？
RQ3標準の価値関数仮定のもとで、2つの拡張MDP内のキャッチャー成分を共有したり、数を減らせるか？
RQ4DACアーキテクチャは、階層フリーなベースラインおよび先行の勾配ベースのオプション学習手法を、転移学習設定で上回るか？

主な発見

DACは、PPOなどの任意のポリシー最適化アルゴリズムを、オプション内フレームワークでオンラインかつそのまま適用可能にし、オプション内ポリシーとマスターポリシーの両方を学習可能にする。
困難なロボットシミュレーションタスクにおける転移学習設定において、DAC + PPOは階層フリーなPPOベースラインおよび先行の勾配ベースのオプション学習アルゴリズムを上回る。
著者らは、状態価値関数をキャッチャーとして使用する場合、DACアーキテクチャにおける1つのキャッチャーを他方の関数で表現できることを確立し、1つの共有キャッチャーを可能にすることで計算コストを削減できる。
本手法は、アクティブなオプションの終了確率が時間経過とともに増加することを暗黙的に学習しており、先行研究の観察結果と整合し、効果的なオプション管理を示している。
2つの拡張MDPの明示的定式化により、概念的明確性が得られ、かつてオプション学習と互換性がなかった高度なポリシー最適化技術の利用が可能になる。
本研究は、1ステップモデル（DACで使用）が2ステップモデルよりもデータ効率的であり、オンラインかつオプション内学習を支援することを示しており、これは先行研究で認識されていなかった重要な差異である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。