QUICK REVIEW

[論文レビュー] Linear Quadratic Reinforcement Learning: Sublinear Regret in the Episodic Continuous-Time Framework

Matteo Basei, Xin Guo|arXiv (Cornell University)|Jun 27, 2020

Advanced Bandit Algorithms Research被引用数 5

ひとこと要約

本稿では、エピソード設定における線形二次制御の連続時間強化学習アルゴリズムを提案し、正則化付き最小二乗推定を用いて部分線形レグレットを達成する。一般ケースではレグレットバウンドを $\tilde{O}(N^{9/10})$、1次元ケースでは $\tilde{O}((\sqrt{N})$ として確立し、ナーブな離散化手法の線形レグレットを克服する。

ABSTRACT

This paper studies a continuous-time linear quadratic reinforcement learning problem in an episodic setting. We first show that naive discretization and piecewise approximation with discrete-time RL algorithms yields a linear regret with respect to the number of learning episodes $N$. We then propose an algorithm with continuous-time controls based on a regularized least-squares estimation. We establish a sublinear regret bound in the order of $ ilde O(N^{9/10})$. The analysis consists of two parts: parameter estimation error, which relies on properties of sub-exponential random variables and double stochastic integrals; and perturbation analysis, which establishes the robustness of the associated continuous-time Riccati equation by exploiting its regularity property. The regret bound for the one-dimensional case improves to $ ilde O(\sqrt{N})$.

研究の動機と目的

ナーブな離散化の制限を解消し、連続時間線形二次強化学習において線形レグレットを引き起こす要因を特定する。
エピソード設定において部分線形レグレットを達成する連続時間制御アルゴリズムを開発する。
パラメータ推定誤差とリッカティ方程式の摂動を分析することで、理論的レグレットバウンドを確立する。
連続時間ダイナミクスと正則化を活用することで、既存の離散時間近似を改善する。

提案手法

アルゴリズムは連続時間におけるパラメータ推定に正則化付き最小二乗推定を用い、離散化誤差を回避する。
連続時間制御を用いてシステムダイナミクスをモデル化し、推定誤差の制御にためにサブ指数的確率変数の性質を活用する。
パラメータ推定プロセスにおける推定誤差を分析するために、二重ストキャスティック積分が用いられる。
制御方策のロバスト性と安定性を保証するために、連続時間リッカティ方程式の摂動解析が実施される。
リッカティ方程式の正則性を活用して、パラメータ推定誤差が制御性能に与える影響を制限する。
推定誤差解析とリッカティ解のロバストネス解析を組み合わせることで、理論的バウンドが導出される。

実験結果

リサーチクエスチョン

RQ1連続時間強化学習アルゴリズムは、エピソード的線形二次制御において部分線形レグレットを達成できるか？
RQ2連続時間LQRにおけるナーブな離散化の根本的レグレット限界は何か？
RQ3最小二乗推定における正則化は、連続時間におけるパラメータ推定誤差にどのように影響するか？
RQ4リッカティ方程式の正則性は、パラメータ推定誤差に対するロバストネスをどの程度保証するか？
RQ51次元設定などの特殊ケースにおいて、レグレットバウンドを改善できるか？

主な発見

提案アルゴリズムは、一般の多次元ケースにおいて $\tilde{O}(N^{9/10})$ のレグレットバウンドを達成し、エピソード数 $N$ に対して部分線形である。
1次元ケースでは、レグレットバウンドが $\tilde{O}(\sqrt{N})$ に改善され、低次元設定における顕著な性能向上を示す。
ナーブな離散化と離散時間RLアルゴリズムによる区分的近似は、線形レグレットを引き起こし、これは最適でない。
サブ指数的確率変数の性質と二重ストキャスティック積分を用いて、パラメータ推定誤差が制御される。
リッカティ方程式の正則性特性により、摂動下での連続時間リッカティ方程式のロバストネスが確立され、安定な制御方策学習が可能になる。
解析により、正則化を伴う連続時間モデリングが、離散時間近似よりも優れたレグレット性能を達成することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。