Skip to main content
QUICK REVIEW

[論文レビュー] Safe Model-based Reinforcement Learning with Stability Guarantees

Felix Berkenkamp, Matteo Turchetta|arXiv (Cornell University)|May 23, 2017
Adversarial Robustness in Machine Learning被引用数 336
ひとこと要約

本論文は SafeLyapunovLearning を導入し、Lyapunov 安定性、ガウス過程ダイナミクス、そして Lipschitz の仮定を用いて、高い確率の安全性保証を提供しつつ、安全に吸引領域を拡大し、ポリシー性能を向上させるモデルベース強化学習手法を提案する;倒立振子を用いた実証実験で示される。

ABSTRACT

Reinforcement learning is a powerful paradigm for learning optimal policies from experimental data. However, to find optimal policies, most reinforcement learning algorithms explore all possible actions, which may be harmful for real-world systems. As a consequence, learning algorithms are rarely applied on safety-critical systems in the real world. In this paper, we present a learning algorithm that explicitly considers safety, defined in terms of stability guarantees. Specifically, we extend control-theoretic results on Lyapunov stability verification and show how to use statistical models of the dynamics to obtain high-performance control policies with provable stability certificates. Moreover, under additional regularity assumptions in terms of a Gaussian process prior, we prove that one can effectively and safely collect data in order to learn about the dynamics and thus both improve control performance and expand the safe region of the state space. In our experiments, we show how the resulting algorithm can safely optimize a neural network policy on a simulated inverted pendulum, without the pendulum ever falling down.

研究の動機と目的

  • 安全性クリティカルなシステムの安定性を Lyapunov 理論で保証することで、安全な強化学習を動機づける。
  • 確率的ダイナミクスを活用して高確率の安全証明を提供するモデルベース RL フレームワークを開発する。
  • 未知のダイナミクスを学習しつつ、安全にデータを収集して安全な吸引領域を拡大し、制御性能を向上させる方法を示す。
  • 倒立振子を用いたシミュレーションで実践的なアルゴリズムと実験的検証を提供する。
  • 吸引領域内での安全な探索に関する理論的保証を確立する。

提案手法

  • 未知のダイナミクスを既知の事前モデルとリプシッツ連続な誤差項の和として表現する。
  • ガウス過程モデルを用いて f(x,u) の事後平均と信頼区間を取得する。
  • Lyapunov 関数を用いて吸引領域を定義し、一歩の減少条件を高確率で担保する。
  • 状態空間をグリッド化して Lyapunov 減少を格子上で検証し、リプシッツ連続性を用いて連続空間へ結果を拡張する。
  • 定理 2 に基づく安全性制約の下で、推定した吸引領域を最大化するようポリシーを最適化する。
  • 情報量が多く安全な状態-行動ペアを優先する安全な現在の安全集合内のデータ収集戦略を提案する(Equation 6)。
  • 安全な測定で GP を更新しつつ、吸引領域内での安全性を保証する実用的なアルゴリズム(Algorithm 1 SafeLyapunovLearning)を提供する。

実験結果

リサーチクエスチョン

  • RQ1モデルベース RL 手法は Lyapunov ベースの安定性証明として高確率の安全保証を提供できるか。
  • RQ2ガウス過程でモデル化された未知のダイナミクスを学習しつつ、安全に吸引領域を拡大できるか。
  • RQ3安全な探索とデータ収集が安全集合を離れることなく拡大するための理論条件は何か。
  • RQ4連続的な状態-作用空間に対して、Lyapunov ベースの安全性を実用的なポリシー最適化に統合できるか。
  • RQ5ニューラルネットワークのような非線形ポリシーにもスケールし、倒立振子のようなベンチマークで安全に動作させられるか。

主な発見

  • アルゴリズムは GP ベースのダイナミクスを用いた Lyapunov 減少条件により安定性の高確率安全保証を提供する。
  • RKHS 有界モデリング誤差とリプシッツ仮定の下で、現在の吸引領域内の安全なデータ収集が可能であり、安全な探索は安全領域を拡大する。
  • 離散化検証が連続空間の Lyapunov 減少をデータの増加とともに保証することを理論的に示し、離散化と精度の関係を明らかにする。
  • この手法はシミュレートされた倒立振子でペンドラムが倒れずにニューラルネットワークポリシーを安全に最適化できる。
  • 明示的な探索戦略は最も不確かな安全な状態-作用ペアを優先して安全領域の拡大を効率化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。