QUICK REVIEW

[論文レビュー] An Improved Convergence Analysis of Stochastic Variance-Reduced Policy Gradient

Pan Xu, Felicia Gao|arXiv (Cornell University)|May 29, 2019

Reinforcement Learning in Robotics参考文献 25被引用数 33

ひとこと要約

本論文はSVRPGの収束解析をより厳密に行い、O(1/ε^{5/3})の軌跡でε近似の定常点を達成することを示し、O(1/ε^2)を改善する。

ABSTRACT

We revisit the stochastic variance-reduced policy gradient (SVRPG) method proposed by Papini et al. (2018) for reinforcement learning. We provide an improved convergence analysis of SVRPG and show that it can find an $\\epsilon$-approximate stationary point of the performance function within $O(1/\\epsilon^{5/3})$ trajectories. This sample complexity improves upon the best known result $O(1/\\epsilon^2)$ by a factor of $O(1/\\epsilon^{1/3})$. At the core of our analysis is (i) a tighter upper bound for the variance of importance sampling weights, where we prove that the variance can be controlled by the parameter distance between different policies; and (ii) a fine-grained analysis of the epoch length and batch size parameters such that we can significantly reduce the number of trajectories required in each iteration of SVRPG. We also empirically demonstrate the effectiveness of our theoretical claims of batch sizes on reinforcement learning benchmark tasks.

研究の動機と目的

強化学習における確率的分散削減ポリシー勾配（SVRPG）の動機付けと分析。
先行研究よりもSVRPGの収束境界をより厳密に提供する。
重要サンプリング重みの分散が政策間距離によってどのように制御され、エポック/バッチの選択がサンプル複雑さにどのように影響するかを示す。
標準的なRLベンチマーク（Cartpole、Mountain Car）で実証的な効果を示す。

提案手法

SVRGとポリシー勾配推定量（REINFORCE/GPOMDP）を組み合わせたSVRPGフレームワークを再検討する。
非定常な軌跡分布における重要サンプリング重みのより厳密な分散界を導出する。
イテレーションあたりの軌跡数を減らすためにエポック長とバッチサイズの精密な分析を行う。
SVRPGがE[||∇J(θ_out)||^2] ≤ εをO(1/ε^{5/3})の軌跡で達成することを証明する。
学習率、バッチサイズ、エポック長を全体のサンプル複雑さに関連付ける系（コルラリ）を提供する。
CartpoleとMountain CarのRLベンチマークでバッチサイズの選択を実証的に検証する。

実験結果

リサーチクエスチョン

RQ1SVRPGはサンプル複雑さの観点で通常の確率的ポリシー勾配法より厳密に高速化され得るか。
RQ2非定常サンプリング下でのSVRPGにおける重要サンプリング重みの厳密な分散界とは。
RQ3収束を保ちつつ軌跡要件を最小化するようにエポック長とバッチサイズをどのように選択すべきか。
RQ4理論的改善が標準的なRLタスクで実用的な利得につながるか。

主な発見

SVRPGはO(1/ε^{5/3})の軌跡でε-近似定常点を見つけられる。
これは既知のO(1/ε^{2})の軌跀複雑さをO(1/ε^{1/3})の要因で改善する。
より厳密な上界は重要サンプリング重みの分散が政策間のパラメータ距離によって制御できることを示す。
精緻化されたエポック-バッチスケジューリングにより、収束速度を失うことなくイテレーションあたりに必要な軌跡数を削減する。
CartpoleとMountain Carでの実証実験は、提案されたバッチサイズ選択の理論的利点を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。