QUICK REVIEW

[論文レビュー] Thompson Sampling for Linear-Quadratic Control Problems

Marc Abeille, Alessandro Lazaric|arXiv (Cornell University)|Mar 27, 2017

Advanced Bandit Algorithms Research参考文献 12被引用数 30

ひとこと要約

この論文は、真のシステムパラメータが固定されているが未知である頻度主義的設定における線形・二次（LQ）制御問題に対するトンプソンサンプリング（TS）を分析している。バンドット問題におけるTSの成功にもかかわらず、著者らは、ポリシー切り替え頻度と楽観的サンプリングのトレードオフのため、TSは $O(T^{2/3})$ のレグレットを達成するが、これはLQ制御における楽観的不確実性への対処（OFU）手法の $O(\sqrt{T})$ のレグレットよりも著しく悪い。

ABSTRACT

We consider the exploration-exploitation tradeoff in linear quadratic (LQ) control problems, where the state dynamics is linear and the cost function is quadratic in states and controls. We analyze the regret of Thompson sampling (TS) (a.k.a. posterior-sampling for reinforcement learning) in the frequentist setting, i.e., when the parameters characterizing the LQ dynamics are fixed. Despite the empirical and theoretical success in a wide range of problems from multi-armed bandit to linear bandit, we show that when studying the frequentist regret TS in control problems, we need to trade-off the frequency of sampling optimistic parameters and the frequency of switches in the control policy. This results in an overall regret of $O(T^{2/3})$, which is significantly worse than the regret $O(\sqrt{T})$ achieved by the optimism-in-face-of-uncertainty algorithm in LQ control problems.

研究の動機と目的

真のシステムパラメータが固定であり、事前分布から確率的に抽出されない線形・二次（LQ）制御問題におけるトンプソンサンプリング（TS）の頻度主義的レグレットを分析すること。
LQ制御におけるTSの文脈で、ポリシー切り替えの頻度と楽観的システムパラメータのサンプリング頻度の間のトレードオフを特定し、形式化すること。
事前分布を仮定しない頻度主義的設定下でのLQシステムにおけるTSのレグレットバウンドを確立すること。
線形バンディットやベイジアンLQ設定におけるTSの既存の解析が、頻度主義的LQ制御ケースに拡張できないことを示すこと。
同じ設定で $O(\sqrt{T})$ のレグレットを達成する楽観的不確実性への対処（OFU）アプローチと比較し、TSの性能を評価すること。

提案手法

推定されたダイナミクスとコスト行列の事後分布からパラメータをサンプリングすることで、TSをLQ制御に適応する。
正則化最小二乗推定を用いて時間経過とともにパラメータの信念を更新し、安定性を確保するための集中不等式を活用する。
時間枠または決定的ポリシー変更のトリガーに基づく終了条件を備えたエピソードベース制御を導入し、ポリシー切り替え頻度を管理する。
レグレットをTS下で実行された制御に直接関連付ける新しい証明技法を採用し、マルティングル解析と高確率事象の分析を用いる。
レグレット分解を、パラメータ推定誤差、ポリシー切り替えコスト、楽観的サンプリング確率の各成分に分ける。
ポリシー切り替えのコストと楽観的サンプリングの頻度のトレードオフを最適化するため、エピソード長 $\tau$ を設定し、$\tau = O(T^{1/3})$ を得る。

実験結果

リサーチクエスチョン

RQ1真のパラメータが固定されている線形・二次制御問題における頻度主義的レグレットは、トンプソンサンプリングでどの程度か？
RQ2TSは他のRL設定では成功しているが、なぜLQ制御では楽観的不確実性への対処（OFU）よりも性能が悪いのか？
RQ3TSのLQ制御における性能を支配するトレードオフは何か？そして、それがレグレットバウンドにどのように影響するか？
RQ4既存のTSの線形バンディットやベイジアンLQ設定におけるレグレット解析は、頻度主義的LQ制御設定に拡張可能か？
RQ5LQ制御におけるTSの $O(T^{2/3})$ のレグレットは、そのメソッドの本質的な制限であるのか、それとも異なる設計によって改善可能か？

主な発見

1次元の場合（n=d=1）において、線形・二次制御問題におけるトンプソンサンプリングの頻度主義的レグレットは $O(T^{2/3})$ で有界である。
$O(T^{2/3})$ のレグレットは、楽観的パラメータのサンプリングとポリシー切り替え頻度の間の根本的トレードオフに起因し、各切り替えでレグレットが増加する。
同じ設定でOFU-LQアルゴリズムが $O(\sqrt{T})$ のレグレットを達成するのに対し、TSはこのトレードオフのため著しく高いレグレットを負担する。
解析により、線形バンディットにおけるTSの既存の頻度主義的レグレットバウンドが、制御ポリシーの構造とサンプルされたダイナミクスへの依存性のため、LQ制御に一般化されないことが明らかになった。
証明技法は新規であり、マルティングル集中と高確率事象を用いて、推定誤差を制御しながら、レグレットをTS下で実行された制御の系列に直接関連付ける。
最終的なレグレットバウンドは、エピソード長 $\tau = O(T^{1/3})$ とすることで最適化され、楽観的サンプリングとポリシー切り替えコストのバランスが取れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。