QUICK REVIEW

[論文レビュー] Projection-Based Constrained Policy Optimization

Tsung-Yen Yang, Justinian Rosca|arXiv (Cornell University)|Oct 7, 2020

Reinforcement Learning in Robotics参考文献 19被引用数 81

ひとこと要約

PCPO は、まず信頼域内で報酬を改善し、次にポリシーを制約集合へ射影して安全性や他のコストが満たされることを保証する、2 ステップの反復強化学習アルゴリズムであり、報酬と制約の境界に関する理論的保証を提供する。

ABSTRACT

We consider the problem of learning control policies that optimize a reward function while satisfying constraints due to considerations of safety, fairness, or other costs. We propose a new algorithm, Projection-Based Constrained Policy Optimization (PCPO). This is an iterative method for optimizing policies in a two-step process: the first step performs a local reward improvement update, while the second step reconciles any constraint violation by projecting the policy back onto the constraint set. We theoretically analyze PCPO and provide a lower bound on reward improvement, and an upper bound on constraint violation, for each policy update. We further characterize the convergence of PCPO based on two different metrics: $\normltwo$ norm and Kullback-Leibler divergence. Our empirical results over several control tasks demonstrate that PCPO achieves superior performance, averaging more than 3.5 times less constraint violation and around 15\% higher reward compared to state-of-the-art methods.

研究の動機と目的

CMDP で事前に定義された安全性、フェアネス、またはコスト制約の下で報酬を最大化するよう学習制御ポリシーを動機づける。
報酬の改善と制約射影を組み合わせて実行可能性を維持する2段階のポリシー更新を開発する。
各更新ごとの報酬改善の理論的境界と制約違反の上限を提供する。
実用的なアルゴリズムを提供し、収束保証と制御タスクでの経験的検証を行う。

提案手法

(1) KL ダイバージェンスの信頼域内での TRPO に類似したステップによる報酬改善。
(2) 中間ポリシーへの距離を最小化しつつ、射影更新を介して制約を課す射影ステップ。
射影はポリシー空間での KL ダイバージェンス、またはパラメータ空間での L2 ノルムのいずれかを使用できる。
理論的境界: 更新ごとの報酬改善の下限と制約違反の上限（定理 3.1 および 3.2）。
ガイドとしてフィッシャ情報 (H) と報酬の勾配ベクトル g、コストの勾配ベクトル a に結びつけた解析で、更新式は式 (6) に導出。
実装は高次元のポリシー空間での H の反転を扱うために共役勾配法を使用。

実験結果

リサーチクエスチョン

RQ1学習中に CMDP 制約を満たしつつ報酬を安定して最大化するにはどうすればよいか？
RQ2PCPO の各更新に関する報酬改善の理論的境界と制約違反の境界は？
RQ3KL ダイバージェンスと L2 ノルム射影は収束と適合性の点でどのように比較されるか？
RQ4安全性と公平性のタスクにおける最先端の制約付き RL 手法と比較して、PCPO は実証的にどう機能するか？

主な発見

PCPO は検証タスクで制約違反を約3.5倍削減し、報酬を約15%高めることに成功した。
2段階の更新（報酬改善後に射影）は、制約のラインサーチやハイパーパラメータ調整なしで実行可能性を維持する。
KL 射影と L2 射影は異なる定常点へ収束し、報酬の安定性と制約満足度にトレードオフがある。
PCPO は全タスクで制約を満たすポリシーを一貫して学習し、制約処理で CPO や PDO を上回る。
制約違反 b+ の増加は worst-case の性能境界を悪化させ、射影ステップの重要性を浮き彫りにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。