QUICK REVIEW

[論文レビュー] Regret Bounds for Robust Adaptive Control of the Linear Quadratic Regulator

Sarah Dean, Horia Mania|arXiv (Cornell University)|May 23, 2018

Advanced Bandit Algorithms Research被引用数 169

ひとこと要約

本論文は、高確率のサブリニアな後悔率（O~(T^{2/3})）を持つ最初の多項式時間ロバスト適応LQRアルゴリズムと、それに対応する下界を提示し、後悔とパラメータ推定の関係についての洞察を提供する。

ABSTRACT

We consider adaptive control of the Linear Quadratic Regulator (LQR), where an unknown linear system is controlled subject to quadratic costs. Leveraging recent developments in the estimation of linear systems and in robust controller synthesis, we present the first provably polynomial time algorithm that provides high probability guarantees of sub-linear regret on this problem. We further study the interplay between regret minimization and parameter estimation by proving a lower bound on the expected regret in terms of the exploration schedule used by any algorithm. Finally, we conduct a numerical study comparing our robust adaptive algorithm to other methods from the adaptive LQR literature, and demonstrate the flexibility of our proposed method by extending it to a demand forecasting problem subject to state constraints.

研究の動機と目的

未知のLTIシステムの二次コストと非漸近的保証を動機づける。
常に安定性とほぼ最適性を保証するロバスト適応制御アルゴリズムを開発する。
サブリニアの後悔保証と系パラメータ推定速度を確立する。
後悔最小化とパラメータ推定のトレードオフを探る。
OFUおよびThompson Sampling法に対する経験的性能を示し、制約環境へ拡張する。

提案手法

System Level Synthesis（SLS）を用いて問題を枠組み、制御設計を系応答（Φ_x, Φ_u）へのアフィン制約として写像する。
推定ダイナミクス (Ã, B̂) から頑健性保証付きに制御器を設計するため、頑健な SDP ベースの最適化を用いる。
ノイズを注入してエポックベースの探索手法を実装し、(A*, B*) の最小二乗推定を定期的に更新する。
推定量が収束するレート Ŝ(T^{-1/3}) を証明し、後悔が高確率で Ŝ(T^{2/3}) に増大することを示す。
対応する後悔下界を導出し、レートが対数因子を除いて鋭いことを示す。
有限次元の SDP の再定式化（FIR 制約を介して）を示し、多項式時間計算を可能にする。

実験結果

リサーチクエスチョン

RQ1検証不能な仮定なしに、未知条件を含む適応LQRで高確率・サブリニア後悔を、多項式時間で達成できるか？
RQ2適応制御器が被る後悔と、系パラメータを推定できる速度との根本的な関係は何か？
RQ3真のダイナミクスが未知である場合、System Level Synthesis はロバストな性能をどのように実現するか？
RQ4状態制約の下で特に、実務的にはロバスト適応法は OFU/TS ベースのアプローチとどう比較されるか？
RQ5安全性制約や構造が分かっている摂動を伴う環境へフレームワークを拡張できるか？

主な発見

提案されたロバスト適応制御アルゴリズムは、高確率で regret Õ(T^{2/3}) を達成する。
系パラメータ推定 (A*, B*) は収束レート Õ(T^{-1/3})。
期待後悔の下界 Ω(T^{2/3}) を証明し、レートが対数因子を除いて鋭いことを示す。
名目モデル（推定モデル）と摂動がSLS由来の条件を満たす限り、真のシステムに対して制御方針は安定を保つ。
数値実験は OFU/TS ベースラインと競合する後悔、真のシステムでの無限ホライズンコストの改善を示し、状態制約を伴う需要予測への拡張を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。