[論文レビュー] Model-Free Linear Quadratic Control via Reduction to Expert Prediction
モデルフリーのアルゴリズムで、専門家予測削減と強制探索を組み込んだポリシー反復風のスキームを用い、サブ線形の後悔を達成する適応LQ制御。
Model-free approaches for reinforcement learning (RL) and continuous control find policies based only on past states and rewards, without fitting a model of the system dynamics. They are appealing as they are general purpose and easy to implement; however, they also come with fewer theoretical guarantees than model-based RL. In this work, we present a new model-free algorithm for controlling linear quadratic (LQ) systems, and show that its regret scales as $O(T^{ξ+2/3})$ for any small $ξ>0$ if time horizon satisfies $T>C^{1/ξ}$ for a constant $C$. The algorithm is based on a reduction of control of Markov decision processes to an expert prediction problem. In practice, it corresponds to a variant of policy iteration with forced exploration, where the policy in each phase is greedy with respect to the average of all previous value functions. This is the first model-free algorithm for adaptive control of LQ systems that provably achieves sublinear regret and has a polynomial computation cost. Empirically, our algorithm dramatically outperforms standard policy iteration, but performs worse than a model-based approach.
研究の動機と目的
- LQ設定における理論的保証を伴う連続制御のモデルフリー強化学習を動機づける。
- 適応的LQ制御においてサブ線形の後悔を達成するモデルフリーアルゴリズム(MFLQ)を開発する。
- 推定誤差下での後悔上界と安定性を示す有限時間解析を提供する。
- MFLQが標準的なポリシー反復を上回り、経験的にモデルベースの性能に近づくことを実証する。
提案手法
- MDp制御を専門家予測問題へ縮約し、過去のQ関数の平均に基づく貪欲ポリシーを用いたFollow-the-Leaderを適用する。
- 過去の価値関数推定値の平均に対して貪欲になるよう、各フェーズのポリシーが強制探索であるポリシー反復の変種を用いる。
- 二次的な価値形式を用いた最小二乗時間差学習 (LSTD) によって状態価値関数 H を推定し、H ≽ M に射影する。
- 推定されたHと集めたデータから状態-行動価値関数 G を推定し、探索とランダム行動を通じてデータを収集する。
- 異なるデータ収集スケジュールとフェーズ長を用いた2つの変種(MFLQv1とMFLQv2)を提供し、後悔境界を導出する。
- サブ線形の後悔を証明する:Regret_T ≤ C T^{2/3+ξ} は v1、Regret_T ≤ C T^{3/4+ξ} は v2、十分大きな T に対して。
実験結果
リサーチクエスチョン
- RQ1モデルフリーな適応LQ制御アプローチはサブ線形の後悔を達成できるか?
- RQ2MDp制御を専門家予測問題へ縮約することが、LQ設定においてどうして扱いやすく、証明可能に優れたポリシーを生み出すのか?
- RQ3この文脈における価値関数とポリシー評価の有限時間推定保証は何か?
- RQ4探索スケジュールはモデルフリーLQ制御の安定性と長期的な性能にどう影響するか?
- RQ5MFLQの性能は、経験的にポリシー反復やモデルベース手法とどのように比較されるか?
主な発見
- 提案されたMFLQアルゴリズムは平均コストLQ設定でサブ線形の後悔を達成する:MFLQv1は O(T^{2/3+ξ})、MFLQv2は O(T^{3/4+ξ})、Tが多項対数閾値を超える場合。
- このアルゴリズムは、過去のQ関数の平均を用いたFollow-the-Leader風の更新と強制探索を備えたポリシー反復のモデルフリー適応である。
- 価値関数 H と状態-行動価値 G はLSTD風の手続きで推定され、有限サンプル誤差境界と安定性を確保する射影ステップを伴う。
- 推定誤差が十分小さい場合、生成されたすべてのポリシーの安定性を維持し、値関数と状態を有界に導く。
- 実験結果は、MFLQの変種が標準的なポリシー反復を上回り、検証されたLQシナリオでモデルベースアプローチと競合することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。