QUICK REVIEW

[論文レビュー] Active Learning for Nonlinear System Identification with Guarantees

Horia Mania, Michael I. Jordan|arXiv (Cornell University)|Jun 18, 2020

Control Systems and Identification参考文献 54被引用数 29

ひとこと要約

本稿では、既知の特徴埋め込みを持つ非線形力学系の同定に向けたアクティブラーニング手法を提案する。反復的な軌道計画、追従、再推定を用いて、パrametric推定レートを達成する。i.i.d. 入力が機能しない状況でも、特徴空間のすべての方向を探索するように適応的に入力を選択することで、有限時間内に同定を保証する。

ABSTRACT

While the identification of nonlinear dynamical systems is a fundamental building block of model-based reinforcement learning and feedback control, its sample complexity is only understood for systems that either have discrete states and actions or for systems that can be identified from data generated by i.i.d. random inputs. Nonetheless, many interesting dynamical systems have continuous states and actions and can only be identified through a judicious choice of inputs. Motivated by practical settings, we study a class of nonlinear dynamical systems whose state transitions depend linearly on a known feature embedding of state-action pairs. To estimate such systems in finite time identification methods must explore all directions in feature space. We propose an active learning approach that achieves this by repeating three steps: trajectory planning, trajectory tracking, and re-estimation of the system from all available data. We show that our method estimates nonlinear dynamical systems at a parametric rate, similar to the statistical rate of standard linear regression.

研究の動機と目的

i.i.d. 入力が情報を得るのに不十分な場合に、連続的な状態と行動を持つ非線形力学系を同定する課題に対処すること。
遷移が既知の特徴写像に関して線形に依存するシステムに対して、有限時間内に同定を保証するデータ収集スキームの開発。
フィードバックに基づく適応的入力選択における推定精度に関する理論的保証の確立。
i.i.d. 入力仮定を超えて、能動的探索を必要とするシステムにまで適用可能なシステム同定の拡張。
反復的計画と追従を通じて、特徴空間における完全な制御可能性を保証するフレームワークの提供。

提案手法

本手法は、三段階の反復的プロセスを実行する：現在の状態から特徴空間における高不確実性領域への軌道計画、現在のシステム行列推定値を用いた軌道追従、およびすべての収集済みデータからのシステム行列の再推定。
軌道計画には計算オракルを用い、特徴空間における高不確実性領域に、限定された計画時間内に到達可能であることを保証する。
システムモデルは、状態遷移が既知の特徴写像に関して線形であると仮定する：$\mathbf{x}_{t+1} = A_\star \phi(\mathbf{x}_t, \mathbf{u}_t) + \mathbf{w}_t$、ここで$\phi$は既知であり、$A_\star$は推定すべき未知のシステム行列である。
未探索の方向に最も整合性を持つように、入力を適応的に選択することで、特徴空間のすべての方向をカバーするようにする。
計画時間とシステムの特徴空間における可制御性が、情報性の高いデータ収集の速度を決定する。
再推定ステップでは、すべての履歴データを用いて推定値$\widehat{A}$を更新し、標準的線形回帰と同等のパrametric収束レートを達成する。

実験結果

リサーチクエスチョン

RQ1i.i.d. 入力が特徴空間全体を探索できない場合に、非線形力学系の有限時間内同定を保証できるか？
RQ2非線形システムの特徴空間のすべての方向を体系的に探索するための適応的入力系列をどのように設計できるか？
RQ3アクティブラーニング下でのシステム同定において、推定レートとサンプル複雑度の観点から、どのような理論的保証を確立できるか？
RQ4特徴空間におけるシステムの可制御性が、同定アルゴリズムの収束速度にどのように影響するか？
RQ5システムのダイナミクスが既知の特徴写像に関して線形である場合に、非線形システム同定でパrametric推定レートを達成できるか？

主な発見

提案手法は、非線形システムに対しても、標準的線形回帰と同等のパrametric推定レートを達成する。
i.i.d. 入力戦略の限界を克服するため、特徴空間の完全な探索を保証するように適応的に入力を選択することで、有限時間内に同定を保証する。
理論的解析により、推定誤差が計画時間と特徴空間におけるシステムの可制御性に依存するレートで減少することが示された。
例1で示されるように、入力制約がある分(piecewise affine)システムなど、i.i.d. 入力では同定不能なシステムに対しても本手法は有効である。
ノイズに対してロバストであり、特徴ベクトルが特徴空間のすべての方向と整合するように保証され、システム行列$A_\star$の完全な回復が可能である。
真のシステムがモデルクラスに含まれるという仮定の下で理論的保証が成り立ち、特徴写像が可逆であるか、全空間を張る場合に有効である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。