[論文レビュー] First Order Constrained Optimization in Policy Space
FOCOPSは、ポリシー空間でのノンパラメトリック更新を解いてからパラメトリックポリシーへ射影することにより、コスト制約を満たしつつリターンを最適化する、1次の制約付き強化学習法である。
In reinforcement learning, an agent attempts to learn high-performing behaviors through interacting with the environment, such behaviors are often quantified in the form of a reward function. However some aspects of behavior-such as ones which are deemed unsafe and to be avoided-are best captured through constraints. We propose a novel approach called First Order Constrained Optimization in Policy Space (FOCOPS) which maximizes an agent's overall reward while ensuring the agent satisfies a set of cost constraints. Using data generated from the current policy, FOCOPS first finds the optimal update policy by solving a constrained optimization problem in the nonparameterized policy space. FOCOPS then projects the update policy back into the parametric policy space. Our approach has an approximate upper bound for worst-case constraint violation throughout training and is first-order in nature therefore simple to implement. We provide empirical evidence that our simple approach achieves better performance on a set of constrained robotics locomotive tasks.
研究の動機と目的
- CMDPと制約付きポリシー最適化を通じた強化学習における安全性の動機付け。
- まずノンパラメトリック更新を見つけ、それをパラメトリックポリシ空間に射影するという二段階手法を導入。
- 訓練中の近似的最悪ケース制約違反に関する理論的保証を提供。
- 高次元連続制御タスクにおける最先端の制約付きRL方法と比較して実証的改善を示す。
提案手法
- 簡略化のため、制約RLを単一のコスト制約を持つCMDPとして定式化。
- ステップ1で、非パラメトリックポリシー空間で制約付き最適更新ポリシーπ*を得る(定理1は、λ, νがデュアル問題で決定される近似的閉形式π*(a|s) ∝ π_θk(a|s) exp((A^{π_θk}(s,a) - ν A_C^{π_θk}(s,a))/λ)を与える)。
- π*をパラメトリックポリシー空間に射影し、KL発散損失L(θ)=E_{s∼d^{π_θk}}[D_KL(π_θ(·|s) ∥ π*(·|s))]を最小化。
- L(θ)を最小化する一次導関数勾配法を用い、ポリシーのKL項とコスト意識的アドバンテージ項を組み合わせた勾配形式(系Corollary 1)を導出。
- コスト制約を課す primal-dual風の更新規則(式14)で νを更新し、トラスト領域内の更新を保つ受け入れ指標(式15)を用いる。
- 二次のフィッシャー情報行列の逆計算を避け、単純で安定性のために一階法のみを用いる。CPOおよびラグランジュ基準と比較する実証的設定を提供。
実験結果
リサーチクエスチョン
- RQ1制約付きポリシー最適化を1次法のみで効率的に実装するにはどうすればよいか。
- RQ2非パラメトリック更新空間で制約付き更新を解き、それを射影して再度適用することは、近似的制約満足とともに性能を改善できるか。
- RQ3FOCOPSの高次元連続制御タスクにおける実験的性能と制約遵守の特性はどうなるか。
- RQ4λや最大νなどのハイパーパラメータは性能と制約遵守にどう影響するか。
- RQ5FOCOPSはCPOやラグランジュベースの手法と様々なロボティクス課題でどのように比較されるか。
主な発見
| Environment | PPO-L Reward | PPO-L Cost | TRPO-L Reward | TRPO-L Cost | CPO Reward | CPO Cost | FOCOPS Reward | FOCOPS Cost | Environment (Circle) | PPO-L Reward | PPO-L Cost | TRPO-L Reward | TRPO-L Cost | CPO Reward | CPO Cost | FOCOPS Reward | FOCOPS Cost |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Ant-v3 | 1291.4 | 98.78 | 1585.7 | 107.82 | 1406.0 | 100.25 | 1830.0 | 102.75 | Ant-Circle | 637.4 | 50.4 | 416.7 | 50.4 | 390.9 | 50.0 | 965.9 | 49.9 |
| HalfCheetah-v3 | 1141.3 | 151.53 | 1621.59 | 164.93 | 1470.8 | 150.05 | 1612.2 | 152.36 | Humanoid-Circle | 1024.5 | 50.3 | 697.5 | 49.6 | 671.0 | 47.9 | 1106.1 | 49.9 |
| Hopper-v3 | 1433.8 | 81.29 | 750.3 | 87.57 | 1167.1 | 80.39 | 1953.4 | 81.84 | Humanoid-Circle | 1106.1 | 49.9 | 50.0 | ? | ? | ? | ? | ? |
| Humanoid-v3 | 471.3 | 18.89 | 4062.4 | 19.23 | 3952.7 | 15.83 | 4529.7 | 18.63 | Circle task (Humanoid) | 1104.5 | 50.0 | ? | ? | ? | ? | 1106.1 | 49.9 |
| Swimmer-v3 | 29.73 | 24.72 | 21.15 | 28.57 | 20.31 | 23.88 | 31.94 | 25.29 | Circle task (Swimmer) | ? | ? | ? | ? | ? | ? | ? | ? |
| Walker2d-v3 | 2074.4 | 81.7 | 1153.1 | 80.79 | 1040.0 | 78.12 | 2485.9 | 81.27 | ? | ? | ? | ? | ? | ? | ? | ? |
- FOCOPSは、複数のMuJoCoタスク(速度制限付き)で約束約束を満たしつつ、報酬が高いまたは競合的である。
- CPOおよびラグランジュベースのベースラインと比較して、FOCOPSはしばしば報酬で上回りつつコストを制約内に保ち、TRPO-Lは一部のタスクで制約を超える。
- 本手法は完全に一階的で実装が簡単であり、ν_maxやλといったハイパーパラメータの選択に対して頑健性を示す。
- 一般化実験では、 Hopper-v3を除く大半のタスクで未見のシードに対して他の制約付き手法よりも優れることが多い。
- 感度分析ではν_max(∞でも)に対する性能の影響は大きくなく、適切な値のλは良い結果を生む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。