QUICK REVIEW

[論文レビュー] Learning Linear-Quadratic Regulators Efficiently with only $\sqrt{T}$ Regret

Alon Cohen, Tomer Koren|arXiv (Cornell University)|Feb 17, 2019

Advanced Bandit Algorithms Research参考文献 27被引用数 20

ひとこと要約

本稿では、$\tilde{O}(\runtime)$のリグレットを達成する計算的に効率的なLinear-Quadratic Regulators (LQR)の学習のための初のアルゴリズムを提示する。長年の未解決問題を解決する。LQR問題を一連の凸な半正定値計画（SDP）に再定式化することで、時間とともに厳密化される楽観的ポリシー更新を用い、探索と活用のバランスをとることで、多項式時間計算で近似的に最適なリグレットを達成する。

ABSTRACT

We present the first computationally-efficient algorithm with $\widetilde O(\sqrt{T})$ regret for learning in Linear Quadratic Control systems with unknown dynamics. By that, we resolve an open question of Abbasi-Yadkori and Szepesvári (2011) and Dean, Mania, Matni, Recht, and Tu (2018).

研究の動機と目的

未知のダイナミクスを伴うLQR制御において、$\tilde{O}(\runtime)$リグレットを達成する計算的に効率的なアルゴリズムを実現するという未解決問題を解決すること。
非効率的な計算コストを負担せずに、未知のLQRシステムにおける探索と活用のバランスを取る学習アルゴリズムを設計すること。
先行研究の統計的リグレット境界に一致するが、実装可能である多項式時間アルゴリズムを提供すること。
無限時間ホライズンLQR問題の半正定値緩和が、データの蓄積に伴い次第に精度が向上する近似をもたらすフレームワークを確立すること。
不確実性の面前における楽観主義の原則（optimism-in-the-face-of-uncertainty）を、証明可能で効率的かつリグレットバウンドを伴う連続状態LQRシステムへと拡張すること。

提案手法

無限時間ホライズンLQR問題を凸な半正定値計画（SDP）に再定式化することで、効率的な最適化を可能にする。
一連のSDP緩和を用いて、現在の推定に基づいて有利なシステムダイナミクスを仮定する「楽観的」ポリシーを生成する。
最小二乗推定と高確率的集中不等式を用いて、未知のシステムパラメータの信頼集合を維持する。
ハントン＝ライト不等式と$\rho$-ネットの議論を用いて、分析中に状態および行動ノルムの尾部挙動を制御する。
トレースおよび作用素ノルムの不等式を用いて、システムダイナミクス行列$(A_0, B_0)$の推定誤差をバウンドする。
情報行列$V$の構造を活用して逆ノルムのバウンドを導出し、時間経過に伴うパラメータ推定の正確性を保証する。

実験結果

リサーチクエスチョン

RQ1未知のダイナミクスを伴うLQR制御において、計算的に効率的なアルゴリズムが$\tilde{O}(\runtime)$リグレットを達成できるか？
RQ2連続的状態LQRシステムにおいて、凸最適化を用いて不確実性の面前における楽観的態度を維持することは可能か？
RQ3半正定値計画法をどのように用いることで、無限時間ホライズンLQRコスト関数を近似し、収束を保証できるか？
RQ4ノイズが存在する中で、サンプルサイズ$T_0$と推定されたシステムパラメータの精度との関係は何か？
RQ5各ステップで非凸最適化を必要とせずに、探索と活用のバランスを取ることは可能か？

主な発見

提案されたアルゴリズムは、未知のダイナミクスを伴うLQR制御において$\tilde{O}(\runtime)$リグレットを達成し、対数要因を除いて統計的下界に一致する。
アルゴリズムは1反復あたり多項式時間で実行され、従来の$O(\runtime)$リグレット法の計算非効率性を解消する。
情報行列$V$の成長に伴い、システムパラメータの推定誤差は高確率で$O(1/\runtime)$に減少する。
情報行列$V$の最小固有値は$\Omega(T_0 \sigma^2)$で下界が与えられ、逆行列の存在と安定した学習を保証する。
高確率で、推定誤差行列のトレースは$O(n^2 \sigma^2 \log(T_0 / \delta))$でバウンドされ、ここで$n$は状態・アクション次元を表す。
アルゴリズムは、初期の不確実性下でもポリシーが安定かつコストに制限され続けることを保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。