QUICK REVIEW

[論文レビュー] Finite Time Analysis of Optimal Adaptive Policies for Linear-Quadratic Systems.

Mohamad Kazem Shirani Faradonbeh, Ambuj Tewari|arXiv (Cornell University)|Nov 20, 2017

Advanced Bandit Algorithms Research参考文献 14被引用数 26

ひとこと要約

本稿は、未知のダイナミクスを有する線形2次系における適応制御について、有限時間かつ高確率でのリグレットバウンドを提示し、対数要因を除いて最適性を達成する。ランダムな線形フィードバックを用いた安定化アルゴリズムを導入し、システムの可安定性およびノイズのモーメント条件という最小限の仮定の下で保証を確立する。

ABSTRACT

We consider the classical problem of control of linear systems with quadratic cost. When the true system dynamics are unknown, an adaptive policy is required for learning the model parameters and planning a control policy simultaneously. Addressing this trade-off between accurate estimation and good control represents the main challenge in the area of adaptive control. Another important issue is to prevent the system becoming destabilized due to lack of knowledge of its dynamics. Asymptotically optimal approaches have been extensively studied in the literature, but there are very few non-asymptotic results which also do not provide a comprehensive treatment of the problem. In this work, we establish finite time high probability regret bounds that are optimal up to logarithmic factors. We also provide high probability guarantees for a stabilization algorithm based on random linear feedbacks. The results are obtained under very mild assumptions, requiring: (i) stabilizability of the matrices encoding the system's dynamics, and (ii) degree of heaviness of the noise distribution. To derive our results, we also introduce a number of new concepts and technical tools.

研究の動機と目的

未知の線形2次系における適応制御の文脈で、探索（パrameter推定）と活用（制御性能）のバランスをとる課題に取り組む。
先行の漸近的結果に制限があるのを克服し、非漸近的かつ高確率での性能保証を提供する。
学習段階中の不安定化を防ぐために、ランダムな線形フィードバックに基づく安定化アルゴリズムを導入し、システムの安定性を確保する。
システムのダイナミクスおよびノイズに関する最小限の仮定の下で、対数要因を除いて最適な有限時間リグレットバウンドを導出する。

提案手法

新規の技術的ツールおよび概念を用いて、線形2次系における適応方策の有限時間かつ高確率でのリグレットバウンドを導出する。
学習段階中の不安定化を防ぐために、ランダムな線形フィードバックに基づく安定化メカニズムを導入する。
緩い仮定に依存する：システム行列の可安定性およびノイズ分布のモーメント条件。
システムのダイナミクスを同時に学習し、制御方策を計算するフレームワークを採用し、安定性および性能バウンドを保証する。
集中不等式およびマルティンゲールの議論を用いて、推定誤差および制御誤差の高確率バウンドを確立する。
有限時間におけるパラメータ推定の不確実性と制御性能のトレードオフを扱うための新しい解析的ツールを開発する。

実験結果

リサーチクエスチョン

RQ1未知のダイナミクスを有する線形2次系における適応方策が、有限時間で達成可能なリグレットバウンドは何か？
RQ2ダイナミクスが未知である場合に、学習プロセス中にシステムの安定性をどのように保証できるか？
RQ3リグレットバウンドはどの程度最適であり、情報理論的下界と比較してどうなるか？
RQ4システム構造およびノイズに関する最小限の仮定の下で、ランダムな線形フィードバックを用いて安定化を達成できるか？
RQ5適応制御において、有限時間性能と安定性を両立させるために必要な最小限の仮定は何か？

主な発見

本稿は、対数要因を除いて最適な有限時間かつ高確率でのリグレットバウンドを確立し、漸近的結果に比べて顕著な改善を示す。
ランダムな線形フィードバックに基づく安定化アルゴリズムを高確率保証とともに提供し、学習中のシステム安定性を確保する。
結果は最小限の仮定の下で成り立つ：システム行列の可安定性およびノイズ分布のモーメント条件。
推定誤差と制御誤差のトレードオフを有限時間できめ細かく制御できる、新たな技術的ツールおよび概念の導入がなされた。
フレームワークは、同時にシステムのダイナミクスを学習し、制御方策を計算することで、有限時間における安定性とほぼ最適性を両立する。
本手法は非漸近的性能保証を提供し、適応制御分野における文献における重要な空白を埋める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。