[論文レビュー] Finite-time Analysis of Approximate Policy Iteration for the Linear Quadratic Regulator
本稿は、線形二次調節器(LQR)における近似政策反復(PI)の有限時間解析を初めて提供し、政策評価が標本複雑性の主因であることを示している。最小二乗時差学習(LSTD-Q)を用いて、ε-最適な制御器を達成するための標本複雑性を$(n+d)^3 \varepsilon^{-2} \log(1/\varepsilon)$と特定し、ε-最適性を達成するために必要な政策改善ステップは$\log(1/\varepsilon)$回にとどまることを示している。
We study the sample complexity of approximate policy iteration (PI) for the Linear Quadratic Regulator (LQR), building on a recent line of work using LQR as a testbed to understand the limits of reinforcement learning (RL) algorithms on continuous control tasks. Our analysis quantifies the tension between policy improvement and policy evaluation, and suggests that policy evaluation is the dominant factor in terms of sample complexity. Specifically, we show that to obtain a controller that is within $\varepsilon$ of the optimal LQR controller, each step of policy evaluation requires at most $(n+d)^3/\varepsilon^2$ samples, where $n$ is the dimension of the state vector and $d$ is the dimension of the input vector. On the other hand, only $\log(1/\varepsilon)$ policy improvement steps suffice, resulting in an overall sample complexity of $(n+d)^3 \varepsilon^{-2} \log(1/\varepsilon)$. We furthermore build on our analysis and construct a simple adaptive procedure based on $\varepsilon$-greedy exploration which relies on approximate PI as a sub-routine and obtains $T^{2/3}$ regret, improving upon a recent result of Abbasi-Yadkori et al.
研究の動機と目的
- 連続制御タスク、特にLQR設定におけるモデルフリー近似政策反復(PI)の有限時間的標本複雑性に関する理解のギャップを埋めること。
- 近似PIにおける政策改善と政策評価のトレードオフを定量化し、どちらのフェーズが標本複雑性を支配しているかを特定すること。
- オンラインで適応可能なLQR設定に解析を拡張し、モデルフリーなアルゴリズムが近似PIをサブラウチンとして用いる場合のレグレットバウンドを導出すること。
- ε-グリーディ探索に基づく適応的手続きを構築し、オンラインLQRにおける先行のモデルフリーのレグレットバウンドを改善すること。
- Bradtkes(1994)の漸近的一貫性結果を超えて、LQRにおける近似PIの非漸近的収束速度を初めて確立すること。
提案手法
- 政策評価に最小二乗時差学習(LSTD-Q)を用いた近似PIの解析を行い、状態価値関数推定誤差に注目する。
- 各政策評価ステップにおける標本複雑性バウンドを$\widetilde{O}((n+d)^3 / \varepsilon^2)$として導出する。ここで$n$は状態次元、$d$は入力次元である。
- 高速な局所収束のおかげで、ε-最適性を達成するために$\mathcal{O}(\log(1/\varepsilon))$回の政策改善ステップで十分であることを示す。
- ε-グリーディ探索と近似PIをサブラウチンとして用いた適応的アルゴリズムを構築し、エポック依存のノイズ分散に基づく新規な探索スケジュールを導入する。
- 離散リャプノフ方程式フレームワークを用いて、政策評価および改善ステップにおける安定性と誤差伝播を解析する。
- 微分フリー最適化(DFO)のための二点推定器を用い、実験でポリシー勾配法と比較することで、理論的主張の標本効率性を検証する。
実験結果
リサーチクエスチョン
- RQ1LQRにおける近似政策反復の有限時間的標本複雑性は何か? また、その主因は政策評価か政策改善のどちらか?
- RQ2オンラインで適応可能なLQR設定において、モデルフリーなアルゴリズムは非最適な速さのレグレットを達成できるか? また、モデルベースのベースラインと比べてどうか?
- RQ3近似PIはLQR設定において非漸近的収束速度で収束するか? もしそうなら、ε-最適性の観点からそのレートは何か?
- RQ4ε-グリーディ探索と近似PIに基づく適応的探索戦略は、先行のモデルフリー手法よりも良いレグレットバウンドを達成できるか?
- RQ5モデルフリーなアルゴリズムを用いて、オンラインLQRで$T^{2/3}$のレグレットバウンドを達成できるか? これは$T^{1/2}$の最適レートと比べてどうか?
主な発見
- LQRにおける近似PIの標本複雑性は$\mathcal{O}((n+d)^3 \varepsilon^{-2} \log(1/\varepsilon))$であり、政策評価が主因である。各ステップで最大$(n+d)^3 / \varepsilon^2$のサンプルが必要となる。
- ε-最適性を達成するには$\log(1/\varepsilon)$回の政策改善ステップで十分であり、政策改善フェーズの収束が速いことが示された。
- 本稿は、オンラインLQR設定におけるモデルフリー適応的アルゴリズムに対して$\widetilde{O}(T^{2/3})$のレグレットバウンドを確立した。これはAbbasi-Yadkoriら[3]の$\widetilde{O}(T^{2/3 + \varepsilon})$バウンドを改善している。
- この$T^{2/3}$レグレットバウンドは、オンラインLQRにおけるいかなるモデルフリーなアルゴリズムに対しても、現在最も良い知られている結果であるが、モデルベース手法の$T^{1/2}$レートに比べて依然として非最適である。
- 本解析により、LQRにおける近似PIの非漸近的収束保証が初めて得られ、Bradtkes(1994)の漸近的一致性結果を有限時間誤差バウンドへと拡張した。
- 実験により、ポリシー勾配法、DFO、LSPIの比較が行われ、$10^6$ステップ後のコストを最小化するようにハイパーパramータをグリッドサーチで最適化することで、結果の妥当性が検証された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。