[論文レビュー] Sample Efficient Policy Gradient Methods with Recursive Variance Reduction
本論文は SRVR-PG を導入しており、ε-近似的な stationary point を達成するための O(1/ε^{3/2}) のサンプル複雑性を持つ確率的再帰分散削減ポリシー勾配法を提案します。SRVR-PG-PE はパラメータ空間探索のための派生であり、古典的制御タスクで検証されています。
Improving the sample efficiency in reinforcement learning has been a long-standing research problem. In this work, we aim to reduce the sample complexity of existing policy gradient methods. We propose a novel policy gradient algorithm called SRVR-PG, which only requires $O(1/ε^{3/2})$ episodes to find an $ε$-approximate stationary point of the nonconcave performance function $J(\boldsymbolθ)$ (i.e., $\boldsymbolθ$ such that $\|\nabla J(\boldsymbolθ)\|_2^2\leqε$). This sample complexity improves the existing result $O(1/ε^{5/3})$ for stochastic variance reduced policy gradient algorithms by a factor of $O(1/ε^{1/6})$. In addition, we also propose a variant of SRVR-PG with parameter exploration, which explores the initial policy parameter from a prior probability distribution. We conduct numerical experiments on classic control problems in reinforcement learning to validate the performance of our proposed algorithms.
研究の動機と目的
- Policy gradient 法の非凸性能関数におけるサンプル複雑性の低減を動機づける。
- 再帰的分散削減を通じてサンプル効率を改善するために SRVR-PG を提案する。
- パラメータベース探索を追加する SRVR-PG-PE の派生を開発する。
- 収束性とサンプル複雑性に関する理論的保証を提供する。
- 古典的な強化学習制御タスクで経験的性能を示す。
提案手法
- S エポックと外部スナップショット勾配を用いた確率的再帰分散削減ポリシー勾配法 (SRVR-PG) アルゴリズムを導入する。
- 再帰的半確定的勾配推定量 v t+1 は現在軌道勾配項とステップ別重要度重み付けされたスナップショット項 (omega) を含む、かつ再帰関係 v t+1 = v t + (1/B) sum_j [g(tau_j|θ_t) - g_ω(tau_j|θ_{t-1})] を採用する。
- 現在のポリシーからサンプリングしつつスナップショットポリシーで推定する際に分布を整合させる重要度重み付けを用い、E[g_ω(τ|θ_{t-1})] が E[g(τ|θ_{t-1})] に一致することを保証する。
- θ は凸制約集合 Θ への射影を用いて更新される: θ_{t+1} = P_Θ(θ_t + η v_t) 。
- 有界なポリシー勾配/ヘシアン、勾配分散の有界性、重要度重みの分散の有界性といった仮定のもとで収束解析を提供する。
- η, m, N, B の適切な選択により、 SRVR-PG は E[||G_η(θ_out)||^2] ≤ ε を traj の数 O(1/ε^{3/2}) で達成する。
実験結果
リサーチクエスチョン
- RQ1SRVR-PG は非凸性能関数に対するポリシー勾配法のサンプル複雑性を従来の分散削減法と比べて低減できるか?
- RQ2逐次重要度重み付けと再帰が収束保証とサンプル複雑性にどのように影響するか?
- RQ3パラメータ空間探索を含む SRVR-PG-PE はサンプルトラクチャを増やさずして性能を改善できるか?
- RQ4ガウス方策に対する理論的保証は horizon および割引因子の依存にどのように現れるか?
主な発見
| Algorithms | Complexity |
|---|---|
| REINFORCE (Williams, 1992) | O(1/ε^{2}) |
| PGT (Sutton et al., 2000) | O(1/ε^{2}) |
| GPOMDP (Baxter & Bartlett, 2001) | O(1/ε^{2}) |
| SVRPG (Papini et al., 2018) | O(1/ε^{2}) |
| SVRPG (Xu et al., 2019) | O(1/ε^{5/3}) |
| SRVR-PG (This paper) | O(1/ε^{3/2}) |
- SRVR-PG は O(1/ε^{3/2})traj で ε-近似的 stationary point を達成し、 prior SVRPG の O(1/ε^{5/3}) を O(1/ε^{1/6}) の改善で上回る。
- 解析は一部の prior 結果で見られる O(1/B) 項を回避する反復複雑性を示し、ミニバッチサイズを horizon に依存させない。
- ガウス方策に対して、 horizon によらず (1−γ) および H への明示的依存を持つ O(1/ε^{3/2}) のサンプル複雑性を達成する。
- SRVR-PG-PE はパラメータベース探索を組み込み、サンプル複雑性を増やさずに制御タスクで実務的に性能が向上する可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。