QUICK REVIEW

[論文レビュー] Accelerated Primal-Dual Policy Optimization for Safe Reinforcement Learning

Qingkai Liang, Fanyu Que|arXiv (Cornell University)|Feb 19, 2018

Reinforcement Learning in Robotics参考文献 19被引用数 65

ひとこと要約

APDOは、プリムアル-デュアル CMDP フレームワークにおけるオフポリシーのデュアル変数調整を導入し、固定の調整エポックの後に一度だけのオフポリシーデュアル更新で、PDOおよびCPOよりサンプル効率と収束性を改善する。

ABSTRACT

Constrained Markov Decision Process (CMDP) is a natural framework for reinforcement learning tasks with safety constraints, where agents learn a policy that maximizes the long-term reward while satisfying the constraints on the long-term cost. A canonical approach for solving CMDPs is the primal-dual method which updates parameters in primal and dual spaces in turn. Existing methods for CMDPs only use on-policy data for dual updates, which results in sample inefficiency and slow convergence. In this paper, we propose a policy search method for CMDPs called Accelerated Primal-Dual Optimization (APDO), which incorporates an off-policy trained dual variable in the dual update procedure while updating the policy in primal space with on-policy likelihood ratio gradient. Experimental results on a simulated robot locomotion task show that APDO achieves better sample efficiency and faster convergence than state-of-the-art approaches for CMDPs.

研究の動機と目的

CMDPを用いて長期的なコスト制約の下で安全な強化学習を動機づける。
CMDPのよりサンプル効率の高いプリムアル-デュアル最適化手法を開発する。
デュアル更新のためのオフポリシーデータを活用することで、制約付きポリシー最適化の収束をより速くする。

提案手法

ラグランジアンによって CMDP を定式化する: L(pi, lambda) = R(pi) - sum_i lambda_i (C_i(pi) - d_i).
各反復で、プリムアルにはオンポリシーのポリシー勾配更新を、デュアルにはデュアル勾配上昇を用いたプリムアル-デュアルループを使用する。
履歴リプレイデータを用いて、K_adj回の反復の後にオフポリシーの一度きりのデュアル調整 lambda_OFF を導入する。
リプレイバッファ上でプリムアル-デュアル目的で訓練されたオフポリシーアルゴリズムによって lambda_OFF を計算する（補足資料のプリムアル-デュアルDDPG）。
オンポリシーのデュアル更新を標準的なデュアル勾配ステップとして設定する。K_adj で lambda を lambda_OFF に置換して、より速い収束を図る。

実験結果

リサーチクエスチョン

RQ1 CMDP においてオフポリシーで訓練されたデュアル変数を組み込むことは、最適なプリムアル-デュアル解への収束を加速しますか？
RQ2制約付き制御タスクにおけるサンプル効率と制約充足性の観点で、APDO は PDO および CPO とどう比較されますか？
RQ3デュアル調整エポック K_adj が性能とオフポリシーデュアル推定のバイアスに与える影響は何ですか？

主な発見

APDO は、シミュレートされた安全性制約付きロボットの歩行タスクにおいて、最先端の CMDP 手法（PDO および CPO）よりもサンプル効率を改善します。
APDO は CPO と同程度の制約遵守を実現しつつ、報酬学習をより速く行い、例えば報告されたタスクで約半分のエポックで同等の報酬レベルを達成します。
APDO のデュアル変数は最適値への収束が速く、オフポリシーのデュアル調整後に顕著な跳ね上がりが見られます。
オフポリシーのデュアル更新を用いることで、歴史的データを活用してデュアル最適化を加速し、大きなオンポリシー・バッチの必要性を削減します。
APDO の改善は、ほぼ最適なデュアル変数をオフラインで解き、そこからオンポリシーを微調整することに起因します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。