QUICK REVIEW

[論文レビュー] Online Control with Adversarial Disturbances

Naman Agarwal, Brian Bullins|arXiv (Cornell University)|Feb 23, 2019

Advanced Bandit Algorithms Research被引用数 61

ひとこと要約

本論文は、敵対的な摂動を受ける線形動的システムに対して効率的なオンライン制御アルゴリズムを提案し、一般の凸コストに対して最良線形コントローラに対するほぼ最適な後悔（O(sqrt(T))）を達成する。

ABSTRACT

We study the control of a linear dynamical system with adversarial disturbances (as opposed to statistical noise). The objective we consider is one of regret: we desire an online control procedure that can do nearly as well as that of a procedure that has full knowledge of the disturbances in hindsight. Our main result is an efficient algorithm that provides nearly tight regret bounds for this problem. From a technical standpoint, this work generalizes upon previous work in two main aspects: our model allows for adversarial noise in the dynamics, and allows for general convex costs.

研究の動機と目的

i.i.d. ノイズを超える敵対的摂動下での頑健な制御を動機づける。
最良の線形コントローラに対する後悔を最小化するオンライン学習フレームワークを開発する。
二次コストに限定されず、一般の凸損失関数を扱う。
証明可能な後悔境界を伴う計算効率の高いアルゴリズムを提供する。

提案手法

過去の摂動の線形写像と固定の線形項の和として行動を表す disturbance-action ポリシークラスを導入する。
制御問題を、切り詰めホライズン H によるメモリを持つオンライン凸最適化へ還元する。
問題の凸緩和の中でポリシー参数に対してオンライン勾配降下を適用する。
メモリを持つ OCO の後悔境界を活用してポリシー後悔を抑える。
理想化されたコスト f_t が、実際のコスト c_t を有界な誤差項で近似することを示す。

実験結果

リサーチクエスチョン

RQ1摂動ベースのポリシーを用いたオンライン学習は、敵対的な摂動下で最も強く安定な線形コントローラに対してサブ線形の後悔を達成できるか？
RQ2一般の凸コストは、二次コストを超える後悔保証を備えた効率的なオンライン制御アルゴリズムを認めるか？
RQ3計算効率を維持しつつ、敵対的摂動が状態の進展とコストに及ぼす影響をどう境界づけるか？
RQ4表現力と性能の観点から、disturbance-action ポリシーと従来の線形コントローラとの関係はどうか？

主な発見

提案アルゴリズムは、最も強く安定な線形コントローラに対して regret O(GW^2 sqrt(T) log(T)) を達成する。
後悔境界は、有界な敵対的摂動および任意の凸損失関数列に対して成立する。
disturbance-action ポリシーは、強く安定な系に対して任意の固定線形ポリシーを表現するのに十分である。
本手法はメモリベースの損失に対するオンライン勾配降下へと還元され、f_t と c_t の近似誤差の有界性が証明される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。