Skip to main content
QUICK REVIEW

[論文レビュー] Logarithmic Regret for Online Control

Naman Agarwal, Elad Hazan|arXiv (Cornell University)|Sep 11, 2019
Advanced Bandit Algorithms Research被引用数 51
ひとこと要約

本論文は、ノイズのある線形ダイナミクス系におけるオンライン制御の poly-logarithmic レートの後悔境界(O(log^7 T))を、敵対的に強凸なコストを持つ状況下で、オンライン勾配降下法とオンライン自然勾配法を用いて示す。

ABSTRACT

We study optimal regret bounds for control in linear dynamical systems under adversarially changing strongly convex cost functions, given the knowledge of transition dynamics. This includes several well studied and fundamental frameworks such as the Kalman filter and the linear quadratic regulator. State of the art methods achieve regret which scales as $O(\sqrt{T})$, where $T$ is the time horizon. We show that the optimal regret in this setting can be significantly smaller, scaling as $O( ext{poly}(\log T))$. This regret bound is achieved by two different efficient iterative methods, online gradient descent and online natural gradient.

研究の動機と目的

  • 動機付け: 敵対的で強凸なコストの下で dynamics を知っている状態で online control において sqrt(T) よりはるかに小さい後悔を追求する。
  • ノイズのある線形ダイナミックシステムで poly-logarithmic regret を達成する効率的なアルゴリズムを開発する。
  • 二次コストを超える一般的な強凸損失にも後悔保証を拡張する。
  • 構造化された制御器クラスが強凸性と扱いやすい最適化をどのように可能にするかを特徴付ける。

提案手法

  • 制御を、固定の撹乱項を持つ disturbance-action ポリシーとして定式化する: u_t = -K x_t + sum_{i=1}^H M^{[i-1]} w_{t-i}。
  • 過去の撹乱に基づく代理状態と代理コスト f_t を導入して後悔を分析する。
  • 代理損失に対して memory を持つオンライン凸最適化(記憶を伴う OC0)を適用し、仮定の下でそれらが制御器パラメータに対して強凸であることを証明する。
  • 2 つの反復更新を提供する: Online Gradient Descent (OGD) および前処理器 (E[J^T J])^{-1} を用いた Online Natural Gradient (ONG)。
  • 対角的強安定性(kappa, gamma)と有界ノイズの下で T に対して poly-logarithmic な後悔を示す、インスタンス依存およびインスタンス非依存の後悔境界を導出する。

実験結果

リサーチクエスチョン

  • RQ1ノイズのある LDS に対する敵対的に強凸な損失を用いたオンライン制御で、対数的または poly-logarithmic な後悔を達成できるか。
  • RQ2代理損失が制御器パラメータに対して強凸になるには、どのようなシステム・コストの仮定が必要か。
  • RQ3この制御設定において OGD と ONG は、後悔とインスタンス難易度(mu)への依存という点でどう比較されるか。
  • RQ4撹乱の記憶と対角的強安定性が、迅速な後悔率の実現にどのような影響を与えるか。

主な発見

  • Online Gradient Descent は後悔境界 tilde O( G^2 W^4 / (alpha sigma^2) * log^7(T) ) を達成する。
  • Online Natural Gradient は後悔境界 tilde O( G W^2 / (alpha mu) * log^7(T) ), ここで mu はヤコビ行列の Gram 行列によって定義される。
  • 補題: 球対称な二次コストの場合、ONG は tilde O( beta^2 W^2 / alpha * log^7(T) ) の後悔を生み、sigma^2 の最小固有値に依存しない。
  • 代理コスト f_t が c_t の alpha-強凸性と K の対角的強安定性の下で M に対して強凸であることを示す分析により、速いレートを可能にする。
  • 二つのアルゴリズム的バリアントは、計算コストとインスタンス依存性能保証の間のトレードオフを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。