QUICK REVIEW

[論文レビュー] Certainty Equivalence is Efficient for Linear Quadratic Control

Horia Mania, Stephen Tu|arXiv (Cornell University)|Feb 21, 2019

Advanced Bandit Algorithms Research参考文献 37被引用数 42

ひとこと要約

本論文は、推定線形ダイナミクスを用いた確信等価コントローラを用いると、完全観測のLQRと部分観測のLQGの両方の設定で、サブオプティマリティギャップが推定誤差（epsilon）に対して二次スケーリングすることを示し、離散リカッチ方程式の新たな摂動境界を提供する。

ABSTRACT

We study the performance of the certainty equivalent controller on Linear Quadratic (LQ) control problems with unknown transition dynamics. We show that for both the fully and partially observed settings, the sub-optimality gap between the cost incurred by playing the certainty equivalent controller on the true system and the cost incurred by using the optimal LQ controller enjoys a fast statistical rate, scaling as the square of the parameter error. To the best of our knowledge, our result is the first sub-optimality guarantee in the partially observed Linear Quadratic Gaussian (LQG) setting. Furthermore, in the fully observed Linear Quadratic Regulator (LQR), our result improves upon recent work by Dean et al. (2017), who present an algorithm achieving a sub-optimality gap linear in the parameter error. A key part of our analysis relies on perturbation bounds for discrete Riccati equations. We provide two new perturbation bounds, one that expands on an existing result from Konstantinov et al. (1993), and another based on a new elementary proof strategy.

研究の動機と目的

未知の線形ダイナミクスを有する二次コストのLQRおよびLQG設定での制御を動機づける。
オフライン領域でモデル誤差に対する二次的依存性を達成することにより、確信等価制御が従来のロバスト法を上回る可能性を示す。
離散リカッチ方程式の摂動境界を開発・適用し、性能ギャップを定量化する。

提案手法

未知のAおよびB（LQGではC, Lを含む）と既知のQ, R を用いてLQR/LQG問題を定式化する。
推定モデルを用いて標準的なリカッチ/LQR解から名目的コントローラを計算する。
推定誤差とコントローラの不一致およびコストをリカッチ摂動境界を介して結ぶメタ定理を導出する。
サブオプティマリティギャップがO(f(epsilon)^2)にスケールすることを示す。ここでfはP_hat - P_starの摂動境界。
Q摂動も扱う摂動フレームワークを用いてLQG設定へ分析を拡張する。
Konstantinovらを拡張したものと新しい初等的証明の二つのリカッチ解に関する摂動境界を提供する。

実験結果

リサーチクエスチョン

RQ1確信等価がLQRおよびLQGでモデル誤差に対して二次的にスケールするサブオプティマリティギャップを生むのか？
RQ2リカッチ解の摂動が名目的コントローラの性能ギャップへどのように翻訳されるのか？
RQ3推定ダイナミクスから導かれたコントローラを真のシステムで使用した場合に安定性とコストを保証できるのか？
RQ4オフラインおよびオンライン（適応）制御レジームにおけるLQRとLQG設定の比較的含意は何か？

主な発見

オフラインのLQRおよびLQGにおいて、確信等価コントローラはパラメータ誤差の二乗にスケールするサブオプティマリティギャップを達成する。
感度分析を支持する二つの新しいリカッチ摂動境界を提供する。
完全観測のLQRでは、結果はDeanら（2019）の線形誤差εに対する保証を改善する。
LQGにおいては、部分観測設定での初のサブオプティマリティ保証を提供する。
解析は誤差ε^2の高速減衰がモデル不確実性のロバスト性とトレードオフになることを示唆する。
エンドツーエンドの含意として、標準的なNサンプル学習の下でエンドツーエンドのコストギャップはこれらの保証の下でO(1/N)にスケールする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。