[論文レビュー] Learning-based Control of Unknown Linear Systems with Thompson Sampling
本稿では、未知の線形二次(LQ)システムに対する学習ベースの制御アルゴリズムとして、動的エピソードを用いたトンプソンサンプリング(TSDE)を提案する。2つの動的エピソード停止基準(成長率制御と共分散行列式の減少)を用いることで、TSDEは $\tilde{O}(\sqrt{T})$ のベイジアンレグレットバウンドを達成し、LQ制御における最初の近似的に最適な結果となる。また、再初期化により時変パラメータに対応可能となる。
We propose a Thompson sampling-based learning algorithm for the Linear Quadratic (LQ) control problem with unknown system parameters. The algorithm is called Thompson sampling with dynamic episodes (TSDE) where two stopping criteria determine the lengths of the dynamic episodes in Thompson sampling. The first stopping criterion controls the growth rate of episode length. The second stopping criterion is triggered when the determinant of the sample covariance matrix is less than half of the previous value. We show under some conditions on the prior distribution that the expected (Bayesian) regret of TSDE accumulated up to time T is bounded by O(\sqrt{T}). Here O(.) hides constants and logarithmic factors. This is the first O(\sqrt{T} ) bound on expected regret of learning in LQ control. By introducing a reinitialization schedule, we also show that the algorithm is robust to time-varying drift in model parameters. Numerical simulations are provided to illustrate the performance of TSDE.
研究の動機と目的
- 従来の適応制御が非漸近的保証を持たない未知パラメータを有する確率的線形システムにおける最適制御方策の学習の課題に対処すること。
- 学習ベースの制御における活用と探索のトレードオフを克服するために、計算効率の良いアルゴリズムを設計し、探索と活用のバランスを取ること。
- LQ制御問題におけるベイジアンレグレットに対して、近似的に最適なレグレットバウンド $\tilde{O}(\sqrt{T})$ を達成すること。これは情報理論的下界と対数要因を除いて一致する。
- 再初期化スケジュールを導入することで、時変パラメータに対応するアルゴリズムを拡張し、パラメータの変動に対してロバストであることを保証すること。
- シミュレーションを通じて、TSDEがスカラーおよび多次元システムにおいて不安定性や非定常ダイナミクス下でも、サブ線形レグレットを達成することを示すこと。
提案手法
- 2つの基準に基づいてエピソードを終了させる、動的エピソードを用いたトンプソンサンプリング(TSDE)を提案する。その基準は(1)エピソード長の制御された成長率、および(2)共分散行列式が前回の半分未満に下がった際に発動するダブルイングトリックである。
- 各エピソードの開始時に、事後分布からシステムパラメータをサンプリングし、楽観的推定値を構築することで、複雑な最適化問題を解かずに探索を可能にする。
- 収集した状態と制御データを用いて、未知パラメータ(A, B)の事後分布を維持・更新するベイジアンアップデートフレームワークを用いる。
- 時変パラメータに対応するため、TSDE-TVに再初期化スケジュールを導入し、システムダイナミクスの変化を追跡し、サブ線形レグレットを維持できるようにする。
- LQ制御問題の構造を活用し、与えられた事前分布仮定下での事後分布の性質と集中不等式を用いて、レグレットバウンドを導出する。
- OFUベースの手法に比べて計算負荷を回避しつつ、同等のレグレット性能を達成できるように、動的エピソード設計を適用する。
実験結果
リサーチクエスチョン
- RQ1未知パラメータを有するLQ制御問題にトンプソンサンプリングを効果的に適応させ、近似的に最適なレグレットバウンドを達成できるか?
- RQ2トンプソンサンプリングがLQ制御において探索と活用のバランスを保ちつつ、計算効率を維持できるようなエピソードスケジューリング機構は何か?
- RQ3時変パラメータ下でも、アルゴリズムはサブ線形レグレットを維持できるか。その場合、どのような条件下で成立するか?
- RQ4レグレットと計算コストの観点から、TSDEは既存のOFUベースのアルゴリズムと比べてどのように性能を発揮するか?
- RQ5パラメータ分布に関する事前仮定が緩和された場合、アルゴリズムはどの程度ロバストに保たれるか?
主な発見
- TSDEは $\tilde{O}(\sqrt{T})$ のベイジアンレグレットバウンドを達成し、学習ベースのLQ制御における最初の近似的に最適な結果となる。これは、対数要因を除いて既知の下界と一致する。
- アルゴリズムは安定および不安定なスカラーおよび多次元LQシステムを効果的に制御でき、シミュレーションではレグレットが $\tilde{O}(\sqrt{T})$ としてサブ線形に増加する。
- 仮定2(事前分布に関するもの)が破られても(例:$\delta = 2$ の場合)、TSDEは依然としてサブ線形レグレットを示すため、理論的仮定を越えたロバストネスを示唆する。
- 時変パラメータに対しては、再初期化を導入したTSDE-TVバージョンがサブ線形の累積レグレットを維持し、時間経過とともに単位時間あたりのレグレットがゼロに減少する。
- TSDE-TVの単位時間あたりのレグレットはゼロに減少し、パラメータの変動があっても、漸近的に最適制御方策を学習できることを確認する。
- 数値結果により、スカラーおよび多次元システムにおけるレグレットの増加率が理論的 $\tilde{O}(\sqrt{T})$ バウンドと一致することが確認され、理論的分析の妥当性が裏付けられる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。