QUICK REVIEW

[論文レビュー] Model-Free Linear Quadratic Control via Reduction to Expert Prediction

Yasin Abbasi-Yadkori, Nevena Lazic|arXiv (Cornell University)|Apr 17, 2018

Advanced Bandit Algorithms Research被引用数 54

ひとこと要約

モデルフリーのアルゴリズムで、専門家予測削減と強制探索を組み込んだポリシー反復風のスキームを用い、サブ線形の後悔を達成する適応LQ制御。

ABSTRACT

Model-free approaches for reinforcement learning (RL) and continuous control find policies based only on past states and rewards, without fitting a model of the system dynamics. They are appealing as they are general purpose and easy to implement; however, they also come with fewer theoretical guarantees than model-based RL. In this work, we present a new model-free algorithm for controlling linear quadratic (LQ) systems, and show that its regret scales as $O(T^{ξ+2/3})$ for any small $ξ>0$ if time horizon satisfies $T>C^{1/ξ}$ for a constant $C$. The algorithm is based on a reduction of control of Markov decision processes to an expert prediction problem. In practice, it corresponds to a variant of policy iteration with forced exploration, where the policy in each phase is greedy with respect to the average of all previous value functions. This is the first model-free algorithm for adaptive control of LQ systems that provably achieves sublinear regret and has a polynomial computation cost. Empirically, our algorithm dramatically outperforms standard policy iteration, but performs worse than a model-based approach.

研究の動機と目的

LQ設定における理論的保証を伴う連続制御のモデルフリー強化学習を動機づける。
適応的LQ制御においてサブ線形の後悔を達成するモデルフリーアルゴリズム(MFLQ)を開発する。
推定誤差下での後悔上界と安定性を示す有限時間解析を提供する。
MFLQが標準的なポリシー反復を上回り、経験的にモデルベースの性能に近づくことを実証する。

提案手法

MDp制御を専門家予測問題へ縮約し、過去のQ関数の平均に基づく貪欲ポリシーを用いたFollow-the-Leaderを適用する。
過去の価値関数推定値の平均に対して貪欲になるよう、各フェーズのポリシーが強制探索であるポリシー反復の変種を用いる。
二次的な価値形式を用いた最小二乗時間差学習 (LSTD) によって状態価値関数 H を推定し、H ≽ M に射影する。
推定されたHと集めたデータから状態-行動価値関数 G を推定し、探索とランダム行動を通じてデータを収集する。
異なるデータ収集スケジュールとフェーズ長を用いた2つの変種(MFLQv1とMFLQv2)を提供し、後悔境界を導出する。
サブ線形の後悔を証明する：Regret_T ≤ C T^{2/3+ξ} は v1、Regret_T ≤ C T^{3/4+ξ} は v2、十分大きな T に対して。

実験結果

リサーチクエスチョン

RQ1モデルフリーな適応LQ制御アプローチはサブ線形の後悔を達成できるか？
RQ2MDp制御を専門家予測問題へ縮約することが、LQ設定においてどうして扱いやすく、証明可能に優れたポリシーを生み出すのか？
RQ3この文脈における価値関数とポリシー評価の有限時間推定保証は何か？
RQ4探索スケジュールはモデルフリーLQ制御の安定性と長期的な性能にどう影響するか？
RQ5MFLQの性能は、経験的にポリシー反復やモデルベース手法とどのように比較されるか？

主な発見

提案されたMFLQアルゴリズムは平均コストLQ設定でサブ線形の後悔を達成する：MFLQv1は O(T^{2/3+ξ})、MFLQv2は O(T^{3/4+ξ})、Tが多項対数閾値を超える場合。
このアルゴリズムは、過去のQ関数の平均を用いたFollow-the-Leader風の更新と強制探索を備えたポリシー反復のモデルフリー適応である。
価値関数 H と状態-行動価値 G はLSTD風の手続きで推定され、有限サンプル誤差境界と安定性を確保する射影ステップを伴う。
推定誤差が十分小さい場合、生成されたすべてのポリシーの安定性を維持し、値関数と状態を有界に導く。
実験結果は、MFLQの変種が標準的なポリシー反復を上回り、検証されたLQシナリオでモデルベースアプローチと競合することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。