QUICK REVIEW

[論文レビュー] Learning the Globally Optimal Distributed LQ Regulator

Luca Furieri, Yang Zheng|arXiv (Cornell University)|Dec 18, 2019

Advanced Control Systems Optimization参考文献 23被引用数 30

ひとこと要約

本稿では、勾配優位性を有する零番目の最適化を用いて、部分空間制約下でのグローバル最適な分散線形二次（LQ）レギュレータのモデルフリー学習手法を提案する。有限時限の分散LQ問題におけるグローバル最適出力フィードバック制御則の学習に関して、初めてのサンプル複雑度バウンズを確立した。特に、2次的不変（QI）および一部の非QI問題に対して有効である。

ABSTRACT

We study model-free learning methods for the output-feedback Linear Quadratic (LQ) control problem in finite-horizon subject to subspace constraints on the control policy. Subspace constraints naturally arise in the field of distributed control and present a significant challenge in the sense that standard model-based optimization and learning leads to intractable numerical programs in general. Building upon recent results in zeroth-order optimization, we establish model-free sample-complexity bounds for the class of distributed LQ problems where a local gradient dominance constant exists on any sublevel set of the cost function. %which admit a local gradient dominance constant valid on the sublevel set of the cost function. We prove that a fundamental class of distributed control problems - commonly referred to as Quadratically Invariant (QI) problems - as well as others possess this property. To the best of our knowledge, our result is the first sample-complexity bound guarantee on learning globally optimal distributed output-feedback control policies.

研究の動機と目的

部分空間制約を伴う有限時限LQ問題におけるグローバル最適な分散出力フィードバック制御則の学習という課題に取り組む。
分散制御におけるモデルベース最適化の非効率性（NP困難性および非連結な実行可能集合）を克服する。
システムモデルの必要性を回避し、軌道データから直接制御方策を最適化するモデルフリー学習フレームワークを構築する。
現実的な仮定の下でグローバル最適解への収束に関する理論的サンプル複雑度バウンズを確立する。
2次的不変（QI）問題および一部の非QI問題が局所的勾配優位性を満たすことを証明し、効率的な学習を可能にする。

提案手法

時変かつ動的線形方策で制限された部分空間上に制約を課した有限時限最適化問題として、分散LQ制御問題を定式化する。
システムモデルが不要な零番目の最適化技術を用いて、システム軌道から直接制御パラメータを学習する。
コスト関数の下位集合における局所的勾配優位性を導入・活用し、グローバル最適解への収束を保証する。
摂動およびノイズ分布の固有値特性を用いて、コスト関数の曲率および勾配ノルムのバウンズを確立する。
勾配優位性と集中不等式および方策パラメータの摂動解析を組み合わせることで、サンプル複雑度バウンズを導出する。
既知の最適解を有する有限時限分散制御問題に対して、数値実験により理論的結果を検証する。

実験結果

リサーチクエスチョン

RQ1モデルフリー学習は、部分空間制約下の分散LQ制御でグローバル最適性を達成できるか？
RQ2どのような制御問題の構造的性質が、モデルフリー手法のグローバル収束を可能にするか？
RQ3有限時限LQ問題において、ε-サブオプティマルな分散制御則を達成するためのサンプル複雑度はどの程度か？
RQ42次的不変（QI）問題およびその他の構造的クラスは、効率的学習に必要な局所的勾配優位性を満たすか？
RQ5収束性およびサンプル効率の観点から、本手法は従来のモデルベースまたはモデルフリー手法と比較してどのように差別化されるか？

主な発見

本稿は、有限時限LQ問題におけるグローバル最適な分散出力フィードバック制御則の学習に関して、初めてのサンプル複雑度バウンズを確立した。
すべての2次的不変（QI）問題および一部の非QI問題において、局所的勾配優位性が成立し、モデルフリー手法のグローバル収束を可能にする。
ε-サブオプティマル性を達成するためのサンプル複雑度は Õ(ε⁻²) に比例し、非分散設定における最良の既知のバウンズと一致する。
理論的バウンズは数値的に妥当性を確認された：アルゴリズム1は、予測されたサンプルサイズに達した段階で10回中10回の実験でグローバル最適解からε = 0.02以内に収束した。
コスト関数が、プロセスおよび測定ノイズのスペクトル特性に依存する定数を持つ局所的勾配優位性を示した。
システム同定を明示的に必要としないため、モデル不確実性に強く、大規模な分散システムに対しても適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。