QUICK REVIEW

[論文レビュー] Online Linear Quadratic Control

Alon Cohen, Avinatan Hassidim|arXiv (Cornell University)|Jun 19, 2018

Advanced Bandit Algorithms Research参考文献 9被引用数 19

ひとこと要約

本稿では、ノイズのある動的特性が既知で、敵対的に変化する二次コスト関数を伴う線形二次（LQ）制御のための、初めての効率的なオンライン学習アルゴリズムを提示する。$O(\sqrt{T})$ のレグレットを達成する。この手法は、すべての妥当解が指数的混合を示す強安定なポリシーに対応する、新しい半定値計画（SDP）緩和を用いる。これにより、オンライン勾配降下法やフォローザラジーリーダー（FLL）アルゴリズムが、リアルタイムで最適ポリシーを追跡可能となる。

ABSTRACT

We study the problem of controlling linear time-invariant systems with known noisy dynamics and adversarially chosen quadratic losses. We present the first efficient online learning algorithms in this setting that guarantee $O(\sqrt{T})$ regret under mild assumptions, where $T$ is the time horizon. Our algorithms rely on a novel SDP relaxation for the steady-state distribution of the system. Crucially, and in contrast to previously proposed relaxations, the feasible solutions of our SDP all correspond to "strongly stable" policies that mix exponentially fast to a steady state.

研究の動機と目的

敵対的に変化する二次コスト行列と既知の線形ダイナミクスを伴うオンラインLQ制御を扱う。
時間枠$T$においてサブ線形レグレットを達成する効率的なオンライン学習アルゴリズムを設計する。
新しいSDP緩和を用いて、高速な混合とポリシーの安定性を保証する。
制御を定常分布の上での学習としてモデル化することで、オンライン学習と制御理論を橋渡しする。
時間変動する電力コストを伴うシミュレートされたデータセンター冷却システムにおいて、実用的性能を示す。

提案手法

理想化されたオンライン学習問題を、新しいSDP緩和を用いて定式化し、定常分布上の期待コストの最小化として定式化する。
SDPのすべての妥当解が、指数的速さで定常状態に混合する強安定ポリシーに対応することを保証する。
連続する制御行列を結合するために、逐次的強安定性を満たすオンライン勾配降下法（OGD）を適用する。
ソフトリセットを用いたフォローザラジーリーダー（FLL）を用いて、ポリシーの切り替えを減らし、レグレットの上限を改善する。
制御行列から直接ではなく、予測された定常状態分布から制御ポリシーを導出する。
観測された状態分布が理想化された設定におけるものと密接に一致することを証明し、低レグレットを保証する。

実験結果

リサーチクエスチョン

RQ1敵対的に変化するコスト関数と既知のダイナミクスを伴うLQ制御において、オンライン学習アルゴリズムが$O(\sqrt{T})$のレグレットを達成できるか？
RQ2すべての妥当解が強安定な制御ポリシーをもたらすように、凸緩和をどのように設計できるか？
RQ3システムの定常分布とオンライン制御アルゴリズムのレグレットの関係は何か？
RQ4OGDおよびFLLに基づくオンラインアルゴリズムを、二次コスト関数を伴う連続線形システムに適応可能か？
RQ5実世界の制御シナリオにおいて、オンラインアルゴリズムの性能は固定ポリシーおよびヒューリスティック戦略と比べてどうか？

主な発見

提案されたアルゴリズムは、任意の固定で強安定な線形ポリシーと比較して$O(\sqrt{T})$のレグレットを達成する。
新しいSDP緩和により、すべての妥当解が指数的混合を示す強安定ポリシーに対応することが保証される。
OGDに基づくアルゴリズムは逐次的強安定性を維持し、観測された状態分布が理想化されたものと追従することを保証する。
FLLに基づくアルゴリズムは、$O(\sqrt{T})$の期待されるポリシー切り替え回数と$O(\sqrt{T})$のレグレットを達成する。
時間変動するコストに対して、シミュレートされたデータセンター冷却システムにおける実験では、FLLの性能が固定最適ポリシーに近づき、均一分布コスト下での「最近の戦略」を上回る。
FLLにおけるソフトリセットは、急激な遷移を回避することで実用的性能を向上させ、経験的レグレットが速やかに最適水準に収束することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。