QUICK REVIEW

[論文レビュー] Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms

Tengyu Xu, Zhe Wang|arXiv (Cornell University)|Apr 27, 2020

Reinforcement Learning in Robotics参考文献 56被引用数 23

ひとこと要約

本稿は、マーカフオリアンサンプリング、ミニバッチ更新、一般化されたポリシー関数近似の下で、アクタ・クリティック（AC）およびネイチャラルアクタ・クリティック（NAC）アルゴリズムに対する最初の理論的サンプル複雑性の改善を確立した。ミニバッチACはポリシー勾配（PG）を$\mathcal{O}((1-\gamma)^{-3})$の要因で上回り、ミニバッチNACはネイチャラルポリシー勾配（NPG）を$\mathcal{O}((1-\gamma)^{-4}\epsilon^{-1}/\log(1/\epsilon))$で上回ることを示し、無限ホライズンMDPにおけるAC/NACがPG/NPGよりも順序的に優れていることを実証した。

ABSTRACT

The actor-critic (AC) algorithm is a popular method to find an optimal policy in reinforcement learning. In the infinite horizon scenario, the finite-sample convergence rate for the AC and natural actor-critic (NAC) algorithms has been established recently, but under independent and identically distributed (i.i.d.) sampling and single-sample update at each iteration. In contrast, this paper characterizes the convergence rate and sample complexity of AC and NAC under Markovian sampling, with mini-batch data for each iteration, and with actor having general policy class approximation. We show that the overall sample complexity for a mini-batch AC to attain an $ε$-accurate stationary point improves the best known sample complexity of AC by an order of $\mathcal{O}(ε^{-1}\log(1/ε))$, and the overall sample complexity for a mini-batch NAC to attain an $ε$-accurate globally optimal point improves the existing sample complexity of NAC by an order of $\mathcal{O}(ε^{-1}/\log(1/ε))$. Moreover, the sample complexity of AC and NAC characterized in this work outperforms that of policy gradient (PG) and natural policy gradient (NPG) by a factor of $\mathcal{O}((1-γ)^{-3})$ and $\mathcal{O}((1-γ)^{-4}ε^{-1}/\log(1/ε))$, respectively. This is the first theoretical study establishing that AC and NAC attain orderwise performance improvement over PG and NPG under infinite horizon due to the incorporation of critic.

研究の動機と目的

現実的なサンプリングおよび更新スキームの下で、アクタ・クリティック（AC）およびネイチャラルアクタ・クリティック（NAC）アルゴリズムのサンプル複雑性分析における理論的ギャップを埋めること。
マーカフオリアンサンプリング、ミニバッチ更新、一般化非線形ポリシー近似の下で、ACおよびNACの有限サンプル収束速度およびサンプル複雑性を特定すること。
無限ホライズンMDPにおいて、ACおよびNACがそれぞれポリシー勾配（PG）およびネイチャラルポリシー勾配（NPG）よりも順序的に優れたサンプル複雑性を達成することを示すこと。
AC/NACがPG/NPGよりもサンプル効率に優れているかどうかという長年の理論的曖昧さを解消すること、特に割引無限ホライズン設定において。

提案手法

各イテレーションでマーカフオリアンミニバッチサンプリングを用いた、オンラインACおよびNACアルゴリズムを1つのサンプルパスで分析する。
クリティック近似誤差、アクター近似誤差、およびマーカフオリアンサンプリングの影響を考慮する、新しい収束解析フレームワークを導入する。
価値関数近似からのバイアスを組み込んだ、リャプノフ関数$D(w_t)$を用いた、期待ポリシー勾配ノルムの再帰的不等式を導出する。
収束と近似誤差のバランスを取るためにステップサイズ$\alpha$を用い、期待ポリシー価値ギャップ$J(\pi^*) - \frac{1}{T}\sum_{t=0}^{T-1}\mathbb{E}[J(\pi_{w_t})]$のバウンドを導出する。
関数近似の影響を定量化するために、アクター近似誤差$\zeta^{\text{actor}}_{\text{approx}}$およびクリティック近似誤差$\zeta^{\text{critic}}_{\text{approx}}$を導入し、それらをバウンドする。
収束誤差と近似誤差のバランスを最適化するために、イテレーション数$T$、バッチサイズ$B$、ステップサイズ$\alpha$を最適化し、総サンプル複雑性を導出する。

実験結果

リサーチクエスチョン

RQ1マーカフオリアンサンプリングおよび一般化ポリシー近似の下で、ミニバッチACアルゴリズムは、既存のAC手法よりも優れたサンプル複雑性を達成するか？
RQ2無限ホライズンMDPにおいて、NACアルゴリズムはNPGよりも順序的に優れたサンプル複雑性を達成できるか、特に割引率$\gamma$を考慮した場合に？
RQ3実験的に観察されたACおよびNACのPGおよびNPGに対する性能優位性が、サンプル複雑性の観点から理論的に正当化されるか？
RQ41 - \gammaに依存する要因が、ACおよびNACのサンプル複雑性がPGおよびNPGと比較してどのように影響を及ぼすか？
RQ5マーカフオリアンサンプリング下で、アクターおよびクリティックの両方が一般化非線形関数近似器を用いる場合、ミニバッチACおよびNACの総サンプル複雑性は何か？

主な発見

ミニバッチACのサンプル複雑性は、$\epsilon$-正確な停留点に到達するため、既存の最良の境界を$\mathcal{O}(\epsilon^{-1}\log(1/\epsilon))$改善した。
ミニバッチNACのサンプル複雑性は、$\epsilon$-正確なグローバル最適ポリシーに到達するため、既存の境界を$\mathcal{O}(\epsilon^{-1}/\log(1/\epsilon))$改善した。
ミニバッチACの総サンプル複雑性は$\mathcal{O}\left(\frac{1}{(1-\gamma)^4\epsilon^3}\log(1/\epsilon)\right)$であり、これはPGの最良の既知の複雑性よりも$\mathcal{O}((1-\gamma)^{-3})$優れている。
ミニバッチNACの総サンプル複雑性は$\mathcal{O}\left(\frac{1}{(1-\gamma)^4\epsilon^3}\log(1/\epsilon)\right)$であり、NPGよりも$\mathcal{O}((1-\gamma)^{-4}\epsilon^{-1}/\log(1/\epsilon))$改善している。
本研究は、ACおよびNACが無限ホライズンMDPにおいてPGおよびNPGよりも順序的に優れたサンプル複雑性を達成することを、初めて理論的に裏付けた。これは、クリティックによる分散低減のおかげである。
解析により、クリティックが勾配の分散を低減する役割を果たすことで、PGおよびNPGよりも明確で顕著なサンプル複雑性の優位性が保証されることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。