QUICK REVIEW

[論文レビュー] Convergent Policy Optimization for Safe Reinforcement Learning

Ming Yu, Zhuoran Yang|arXiv (Cornell University)|Oct 26, 2019

Reinforcement Learning in Robotics被引用数 31

ひとこと要約

本稿では、非線形関数近似を用いた安全強化学習のための収束性を保証する方策最適化アルゴリズムを提案する。非凸な目的関数および制約関数の局所的2次近似を、方策勾配推定器を用いて構築し、収束性を保証する。非凸問題の定常点への収束を理論的に証明し、LQRおよびマルチエージェントベンチマークにおいて、ラグランジュ法と比較して優れたサンプル効率と安定性を示した。

ABSTRACT

We study the safe reinforcement learning problem with nonlinear function approximation, where policy optimization is formulated as a constrained optimization problem with both the objective and the constraint being nonconvex functions. For such a problem, we construct a sequence of surrogate convex constrained optimization problems by replacing the nonconvex functions locally with convex quadratic functions obtained from policy gradient estimators. We prove that the solutions to these surrogate problems converge to a stationary point of the original nonconvex problem. Furthermore, to extend our theoretical results, we apply our algorithm to examples of optimal control and multi-agent reinforcement learning with safety constraints.

研究の動機と目的

大規模な設定における非線形関数近似を伴う安全強化学習を扱う。目的関数および安全制約ともに非凸であることを想定する。
ラグランジュ法の限界、特に非凸・凹なサドルポイント問題に起因する計算不能性および不安定性を克服すること。
元の非凸制約付き最適化問題の定常点への収束を保証する方策最適化アルゴリズムを開発すること。
理論的収束保証を、最適制御やマルチエージェントシステムを含む実用的で高次元の強化学習問題へと拡張すること。

提案手法

方策勾配推定器に基づく一次のテイラー展開を用いて、非凸な目的関数および制約関数の局所的2次近似関数を構築する。
各反復でこれらの2次近似関数からなる凸部分問題を逐次的に解き、方策パラメータを更新する。
安定性と収束性を確保するため、適応的学習率 ηₖ = (2/3)k⁻³ᐟ⁴ および ρₖ = (2/3)k⁻²ᐟ³ を用いる。
閉形式解が得られない場合には、モンテカルロサンプリングを用いて期待値を推定し、制約付きLQRおよびマルチエージェントMDPにアルゴリズムを適用する。
不安定性を防ぐために、信頼領域に類似した更新メカニズムを採用する。
理論的分析により、方策列が元の非凸問題の定常点にほとんど確実に収束することを示した。

実験結果

リサーチクエスチョン

RQ1非線形関数近似を伴う非凸制約付き強化学習問題において、方策最適化アルゴリズムが定常点に収束できるか？
RQ2目的関数および制約関数がともに非凸である安全強化学習において、どのようにして方策最適化の安定性と高速性を向上できるか？
RQ3非凸関数を局所的2次近似に置き換えることで、制約付き強化学習に対して保証された収束性を持つアルゴリズムが得られるか？
RQ4収束速度および安定性の観点から、提案手法はラグランジュベースの手法と比べてどのように差がつくか？
RQ5本手法は、安全性制約を伴う複雑で高次元の問題、例えばLQRやマルチエージェントMDPに拡張可能か？

主な発見

提案手法は、元の非凸制約付き最適化問題の定常点にほとんど確実に収束することを保証し、強力な理論的保証を提供する。
LQR実験では、最小目的値が 30.689 ± 0.114 を達成し、ラグランジュ法が要する7492 ± 1780回と比較して、わずか2001 ± 1172回の方策更新で達成された。
約0.02%以内の近似最小値を達成するため、提案手法は604.3 ± 722.4イテレーションで十分だったが、ラグランジュ法では5464 ± 2116イテレーションを要した。
LQR実験では、初期方策が非可解であったにもかかわらず、約100イテレーションで可解かつ最適な解へと遷移した。
LQRシステムのダイナミクスにおける固有値のずれを防ぐために、保守的な学習率を用いることで、システムの安定性を維持した。
補足資料で示されたように、本手法は制約付き並列MDPおよびマルチエージェントMDPへも拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。