Skip to main content
QUICK REVIEW

[論文レビュー] Safe exploration of nonlinear dynamical systems: A predictive safety filter for reinforcement learning.

Kim P. Wabersich, Melanie N. Zeilinger|arXiv (Cornell University)|Dec 13, 2018
Advanced Control Systems Optimization参考文献 38被引用数 40
ひとこと要約

本稿では、非線形力学系における連続的状態および入力空間において、任意の強化学習(RL)方策から生じる危険な行動を動的に修正することで、安全な強化学習(RL)を可能にする予測的安全性フィルタを提案する。このフィルタは、不確実性を考慮した安全性制約を備えたデータ駆動型モデル予測制御(MPC)定式化を用い、下位のRLアルゴリズムを変更することなく安全性を保証する。

ABSTRACT

The transfer of reinforcement learning (RL) techniques into real-world applications is challenged by safety requirements in the presence of physical limitations. Most RL methods, in particular the most popular algorithms, do not support explicit consideration of state and input constraints. In this paper, we address this problem for nonlinear systems with continuous state and input spaces by introducing a predictive safety filter, which is able to turn a constrained dynamical system into an unconstrained safe system, to which any RL algorithm can be applied `out-of-the-box'. The predictive safety filter receives the proposed learning input and decides, based on the current system state, if it can be safely applied to the real system, or if it has to be modified otherwise. Safety is thereby established by a continuously updated safety policy, which is based on a model predictive control formulation using a data-driven system model and considering state and input dependent uncertainties.

研究の動機と目的

  • 実世界の物理的システムに応用する際、標準的な強化学習(RL)アルゴリズムに明示的な安全性制約が欠如している問題に対処すること。
  • 物理的および運用的制約下で、連続的状態および入力空間を持つ非線形力学系において安全な探索を可能にすること。
  • 下位のRLアルゴリズムの学習プロセスを変更することなく、任意のRLアルゴリズムに即座に適用可能な汎用的安全性フィルタを開発すること。
  • 状態および入力に依存する不確実性を考慮した継続的な更新による安全性ポリシーにより、安全性を確保すること。

提案手法

  • 安全性フィルタは、システムダイナミクスのデータ駆動型モデルを用いて、将来の状態を予測し、リアルタイムで行動の安全性を評価する。
  • 状態および入力制約を満たす安全な制御入力を計算するために、モデル予測制御(MPC)定式化を適用する。
  • 現在のシステム状態および不確実性の範囲に基づき、RL方策が安全性制約に違反する場合に、その行動を動的に修正する。
  • システムモデルの不確実性を明示的にモデル化し、MPC最適化にわたって伝搬させることで、モデルの不正確さ下でも安全性を維持する。
  • オンライン学習または適応推定を用いて、現在のシステム行動および不確実性を反映するように、安全性ポリシーを継続的に更新する。
  • フィルタはリアルタイムで動作し、システムの安定性および制約遵守を維持しながら、RLエージェントが安全に探索できるようにする。

実験結果

リサーチクエスチョン

  • RQ1物理的制約下で、連続的状態および入力空間を持つ非線形力学系に強化学習を安全に適用する方法は何か?
  • RQ2学習プロセスの変更を要せず、任意のRLアルゴリズムと連携できる汎用的安全性フィルタを設計できるか?
  • RQ3モデルの不確実性および状態/入力に依存する摂動を、安全性フィルタに統合することで、ロバストネスを確保できるか?
  • RQ4提案手法の性能と安全性のトレードオフは、制約違反の頻度および学習効率の観点からどのように評価できるか?

主な発見

  • 予測的安全性フィルタは、RL方策が生じる危険な行動を動的に修正することで、非線形システムにおける安全な探索を実現した。
  • 下位のRLアルゴリズムを変更することなく安全性を確保でき、即時統合が可能な「即席型」の統合が可能である。
  • MPC定式化に状態および入力に依存する不確実性の境界を組み込むことで、モデルの不確実性下でも安全性が維持された。
  • 標準的なRLでは制約違反や危険な行動が生じるシステムにおいても、安定かつ制約を遵守する学習が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。