QUICK REVIEW

[論文レビュー] Event-triggered Learning for Linear Quadratic Control

Henning Schlüter, Friedrich Solowjow|arXiv (Cornell University)|Oct 17, 2019

Fault Detection and Control Systems参考文献 62被引用数 23

ひとこと要約

本稿では、線形二次制御（LQR）のためのイベント駆動型学習フレームワークを提案する。この手法は、チェルノフ境界を用いてモデル予測の信頼区間から導出された経験的コスト分布のずれを監視することで、モデルの不正確さを自動的に検出する。統計的に有意な不一致が生じた場合にのみモデル再推定をトリガーし、ハードウェア実験では制御コストを最大50％まで低減した。この方法により不要な学習を回避し、プロセスノイズに対してもロバストに対処できる。

ABSTRACT

When models are inaccurate, the performance of model-based control will degrade. For linear quadratic control, an event-triggered learning framework is proposed that automatically detects inaccurate models and triggers the learning of a new process model when needed. This is achieved by analyzing the probability distribution of the linear quadratic cost and designing a learning trigger that leverages Chernoff bounds. In particular, whenever empirically observed cost signals are located outside the derived confidence intervals, we can provably guarantee that this is with high probability due to a model mismatch. With the aid of numerical and hardware experiments, we demonstrate that the proposed bounds are tight and that the event-triggered learning algorithm effectively distinguishes between inaccurate models and probabilistic effects such as process noise. Thus, a structured approach is obtained that decides when model learning is beneficial.

研究の動機と目的

モデルベースのLQR制御における、不正確なシステムモデルに起因する性能劣化を是正すること。
連続的または不適切なタイミングでの更新を回避する、原理的でデータ駆動型の方法を考案し、*いつ*モデル学習を開始するかを決定すること。
LQRコストの統計的信頼区間を用いて、モデル不一致とプロセスノイズのような確率的効果を区別すること。
モデル予測からの顕著な性能逸脱が生じた場合にのみ学習をトリガーすることで、リアルタイムで適応可能な制御を実現すること。
最適制御理論と統計的学習を統合し、制御安定性を維持するとともにリソース消費を低減する方法を構築すること。

提案手法

モデル仮定下でのLQRコストの全確率分布を特徴付けるために、モーメント生成関数（MGF）を導出する。
MGFに基づいて、事前に指定された確率質量を含む信頼区間を計算するためのチェルノフ境界を用いる。
経験的に観測されたコストがこれらの信頼区間の外側にある場合にのみ学習トリガーを発動するように設計する。
一時的な摂動による誤検出を低減するため、最小10秒間の違反継続を要件とするヒステリシス機構を導入する。
オフライン学習フェーズ中に励起信号を用いて予測誤差の最小化によりモデル再推定を実行する。
新たに学習されたモデルとノイズ共分散推定値を用いて、コントローラーとトリガー閾値を更新する。

実験結果

リサーチクエスチョン

RQ1モデルのモーメント生成関数（MGF）から、LQRコストの統計的信頼区間を導出できるか。これによりモデル不一致を検出可能か。
RQ2チェルノフ境界を用いて、モデル誤差とプロセスノイズを区別できる学習トリガーを効果的に設計できるか。
RQ3イベント駆動型学習フレームワークは、実際の制御コストを低減するか。同時に不要な学習を最小限に抑えるか。
RQ4実ハードウェアにおいて、短期的摂動や非定常性に対してトリガーはどれほどロバストか。
RQ5突然のシステムダイナミクス変化（例：質量追加、平衡点の変更）を検出し、適応できるか。

主な発見

チェルノフベースのトリガーは、初期設定でわずかに不正確なモデルが使用されていた状況において、モデル不一致を正常に検出し、17.758秒の運転後に学習を開始した。
モデル更新後、平均的な制御コストは初期の不正確なモデルと比較して約50％低減された。
374.272秒目にペンデュラムに重りが追加された際、新たなダイナミクス変化が正しく検出され、構造的変化に対してもロバストであることが確認された。
トリガーが一時的なコスト低下時に作動しなかったことから、モデル不一致とランダムなフラクチュエーションを効果的に区別できたことが裏付けられた。
ハードウェア実装により、非線形性や時間変動する配線効果が存在する実システムでも本手法が実用可能であることが示された。
10秒間のヒステリシス条件の導入により、短期的摂動に対する検出のロバスト性が顕著に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。