QUICK REVIEW

[論文レビュー] Approximate Policy Iteration Schemes: A Comparison

Bruno Scherrer|arXiv (Cornell University)|May 12, 2014

Reinforcement Learning in Robotics参考文献 15被引用数 36

ひとこと要約

本稿は、無限時限割引マルコフ決定過程における4つの近似方策反復スキーム—近似方策反復（API）、保守的方策反復（CPI）、動的計画法による方策探索（PSDP∞）、非定常方策反復（NSPI(m)）—を比較する。濃縮定数を含む性能バウンドを確立し、PSDP∞がAPIに類似した反復回数とメモリ効率でCPIに類似した性能保証を達成することを示す。一方、NSPI(m)はメモリと性能のトレードオフを提供する。

ABSTRACT

We consider the infinite-horizon discounted optimal control problem formalized by Markov Decision Processes. We focus on several approximate variations of the Policy Iteration algorithm: Approximate Policy Iteration, Conservative Policy Iteration (CPI), a natural adaptation of the Policy Search by Dynamic Programming algorithm to the infinite-horizon case (PSDP$_\infty$), and the recently proposed Non-Stationary Policy iteration (NSPI(m)). For all algorithms, we describe performance bounds, and make a comparison by paying a particular attention to the concentrability constants involved, the number of iterations and the memory required. Our analysis highlights the following points: 1) The performance guarantee of CPI can be arbitrarily better than that of API/API($α$), but this comes at the cost of a relative---exponential in $\frac{1}ε$---increase of the number of iterations. 2) PSDP$_\infty$ enjoys the best of both worlds: its performance guarantee is similar to that of CPI, but within a number of iterations similar to that of API. 3) Contrary to API that requires a constant memory, the memory needed by CPI and PSDP$_\infty$ is proportional to their number of iterations, which may be problematic when the discount factor $γ$ is close to 1 or the approximation error $ε$ is close to $0$; we show that the NSPI(m) algorithm allows to make an overall trade-off between memory and performance. Simulations with these schemes confirm our analysis.

研究の動機と目的

無限時限MDPにおける主要な近似方策反復スキームの性能保証、時間計算量、メモリ要件を分析・比較すること。
濃縮定数が近似方策反復アルゴリズムの収束および性能に与える影響を評価すること。
方策反復の変種における反復回数、メモリ使用量、近似誤差のトレードオフを同定すること。
ベンチマークMDPにおけるシミュレーションを通じて理論的知見を検証すること。
各アルゴリズムの強みと限界を理解するための統一的枠組みを提供すること。

提案手法

本稿は、各アルゴリズムの性能バウンドを、反復ごとの誤差 $\epsilon$ および状態分布ダイナミクスから導かれる濃縮定数を用いて形式化する。
分布 $\nu$ におけるグリーディ方策選択を近似する $(\epsilon,\nu)$-近似的グリーディ演算子 $\mathcal{G}_\epsilon$ を定義する。
各アルゴリズムについて、$\epsilon$、濃縮定数、割引因子 $\gamma$ を用いて、最適価値関数との差 $\|v_* - v_{\pi_k}\|$ のバウンドを導出する。
濃縮定数 $C_{\pi_*}$、$C_{\pi_*}^{(1)}$、$C^{(1,0)}$、$C^{(2,m,m)}$ の区別を行い、それらの階層的関係を明らかにする。
メモリ使用量を削減しながら性能を維持するため、過去の複数の方策を保持するスライディングウィンドウを用いる非定常バージョンであるNSPI(m)を導入する。
再帰的ベルマン誤差分解と割引状態訪問分布の幾何級数バウンドを用いて、理論的バウンドを導出する。

実験結果

リサーチクエスチョン

RQ1CPIとAPIの性能保証は、濃縮定数と反復回数の観点でどのように比較できるか？
RQ2PSDP∞は、APIに類似した反復効率と低いメモリ使用量でCPI水準の性能保証を達成できるか？
RQ3CPIとPSDP∞におけるメモリ要件と収束速度のトレードオフは何か？NSPI(m)はその問題をどのように解決するか？
RQ4$C_{\pi_*}^{(1)}$、$C^{(1,0)}$、$C^{(2,m,m)}$ の濃縮定数どうしの関係は何か？また、それらがアルゴリズムの性能に与える影響は？
RQ5高精度設定において、NSPI(m)はメモリと性能の間で実用的なトレードオフを提供できるか？

主な発見

CPIの性能保証は、APIに比べて任意に優れている可能性があるが、これは $1/\epsilon$ に比例して反復回数が指数関数的に増加することを伴う。
PSDP∞は、APIに類似した反復回数でCPIに類似した性能保証を達成し、収束速度の観点から4つの手法の中で最も効率的である。
CPIとPSDP∞は反復回数に比例したメモリを要するが、これは $\gamma \to 1$ または $\epsilon \to 0$ の場合に問題となる。一方、APIは定数メモリを用いるため、その点で優位である。
NSPI(m)は、保持する過去の方策数を制限することで、メモリと性能の調整可能なトレードオフを実現する。理論的バウンドは、サブ最適性が $O(\epsilon)$ の範囲内に保たれることを示している。
濃縮定数 $C_{\pi_*}^{(1)}$ が無限大である一方で $C_{\pi_*}$ が有限であることはあり得るため、一部のアルゴリズムは他のアルゴリズムが収束する場合でも収束しない可能性がある。
シミュレーションにより、PSDP∞が収束速度および最終的な性能の両面でAPIおよびCPIを上回ることを確認した。一方、NSPI(m)はメモリ使用量と精度のバランスを効果的にとっている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。