QUICK REVIEW

[論文レビュー] Least-Squares Temporal Difference Learning for the Linear Quadratic Regulator

Stephen Tu, Benjamin Recht|arXiv (Cornell University)|Dec 22, 2017

Control Systems and Identification被引用数 56

ひとこと要約

この論文は LSTD推定量の有限時間解析をLQR問題に対して初めて行い、固定安定ポリシーの下でε相対誤差内に価値関数を推定するのに必要なサンプル数を導出し、高速混合過程下の共分散固有値境界を示す。

ABSTRACT

Reinforcement learning (RL) has been successfully used to solve many continuous control tasks. Despite its impressive results however, fundamental questions regarding the sample complexity of RL on continuous problems remain open. We study the performance of RL in this setting by considering the behavior of the Least-Squares Temporal Difference (LSTD) estimator on the classic Linear Quadratic Regulator (LQR) problem from optimal control. We give the first finite-time analysis of the number of samples needed to estimate the value function for a fixed static state-feedback policy to within $\\varepsilon$-relative error. In the process of deriving our result, we give a general characterization for when the minimum eigenvalue of the empirical covariance matrix formed along the sample path of a fast-mixing stochastic process concentrates above zero, extending a result by Koltchinskii and Mendelson in the independent covariates setting. Finally, we provide experimental evidence indicating that our analysis correctly captures the qualitative behavior of LSTD on several LQR instances.

研究の動機と目的

連続制御におけるモデルフリーRL法のサンプル複雑さをLQRをベンチマークとして動機づけ、定量化する。
LQRにおける固定ポリシーに対するLeast-Squares Temporal Difference推定の性能を分析する。
高速混合軌道の下での経験共分散行列の固有値集中結果を開発する。
実用的なデータ効率と頑健性を評価するためにモデルフリーLSPIとモデルベース手法を比較する。

提案手法

LQRの線形アーキテクチャ値関数の下でLSTDを分析する。
ε相対誤差を満たすのに概ね n^2/ε^2 サンプルが必要であることを示す有限時間のサンプル複雑性境界を導出する。
コルトチンスキーとメンデリソンを拡張して、速い混合過程からのサンプル共分散の一般的な固有値集中境界を開発する。
線形フィードバックポリシーとガウス擾乱を用いてLQR設定に結果を特化する。
理論的洞察を検証するためにLSPIとモデルベース手法の経験的比較を提供する。
Lyapunovに基づく解析とH∞-ノルム技術を用いて高速混合とスペクトル特性を特徴づける。

実験結果

リサーチクエスチョン

RQ1 finite-sampleなおLSTDのサンプル複雑さは、固定安定ポリシーの下でLQRのV^πを推定する際にどの程度か？
RQ2高速混合軌道に沿った共分散の最小固有値がどのように集中し、これがLSTDの誤差境界にどう影響するか？
RQ3モデルフリーLSPIとモデルベース手法は、データ効率と頑健性の点でLQRに対してどう比較されるか？
RQ4LQR設定を用いて、混合過程から生じる依存データに対する既存の共分散集中結果を拡張できるか？

主な発見

LSTDは LQRの固定安定ポリシーの下で価値関数をε相対誤差まで推定するのに約 n^2/ε^2 サンプルが必要。
本論文は高速混合過程の経験共分散の最小固有値に関する一般境界を提供し、独立共変量の結果を拡張する。
有界共変量へ特化すると、軌道長の要件が改善され、従来の結果と比べてd^2からdへの依存を一部設定で低減する。
経験的結果は、モデルフリーLSPIが複数のLQR事例においてモデルベース手法よりサンプル効率が低く、頑健性が劣る可能性を示す。
分析は、モデルフリー設定における価値関数推定のサンプル要件と頑健な制御器計算境界の間に状態次元のギャップを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。