QUICK REVIEW

[論文レビュー] Learning-based Model Predictive Control for Safe Exploration and Reinforcement Learning

Torsten Koller, Felix Berkenkamp|arXiv (Cornell University)|Jun 27, 2019

Advanced Control Systems Optimization参考文献 44被引用数 52

ひとこと要約

非線形システムの入力依存の不確実性に対して高確率の安全性保証を提供する学習ベースのMPCアプローチ。安全な探索と強化学習との統合を可能にする。

ABSTRACT

Reinforcement learning has been successfully used to solve difficult tasks in complex unknown environments. However, these methods typically do not provide any safety guarantees during the learning process. This is particularly problematic, since reinforcement learning agent actively explore their environment. This prevents their use in safety-critical, real-world applications. In this paper, we present a learning-based model predictive control scheme that provides high-probability safety guarantees throughout the learning process. Based on a reliable statistical model, we construct provably accurate confidence intervals on predicted trajectories. Unlike previous approaches, we allow for input-dependent uncertainties. Based on these reliable predictions, we guarantee that trajectories satisfy safety constraints. Moreover, we use a terminal set constraint to recursively guarantee the existence of safe control actions at every iteration. We evaluate the resulting algorithm to safely explore the dynamics of an inverted pendulum and to solve a reinforcement learning task on a cart-pole system with safety constraints.

研究の動機と目的

未知環境での探索が安全性制約を尊重する必要がある中で、安全な学習を動機づける。
未知の誤差を信頼区間とともに捉えるシステムダイナミクスの統計モデルを学習する。
入力依存の不確実性を扱う多ステップ予測を開発する。
安全集合と終端制約を用いて、各反復で実行可能な安全アクションを保証し、安全性と実現可能性を確保する。
計画と学習を組み合わせて安全な探索とRLのデータ収集を可能にする。

提案手法

未知ダイナミクスを x_{t+1} = h(x_t,u_t) + g(x_t,u_t) としてモデリング。既知のprior h と未知の Lipschitz g。
ガウス過程を用いて g をモデリングし、点推定 μ_n と不確実性 σ_n、そして高確率の信頼区間を導出。
RKHSの性質とGP理論を用いて、入力依存の不確性 (β·σ) に対応する信頼区間を構築。
時間をまたいだ不確実性を伝搬させる多ステップ状態予測の楕円包絡を開発。
安全集合と終端条件を備えた頑健なMPC を数式化し、安全制約を満たし安全な終端集合を保証し、実行可能な安全アクションを保証。
安全探索を統合し、安全志向の軌道と性能志向のプランニングを組み合わせてRLを推進。

実験結果

リサーチクエスチョン

RQ1入力依存の不確実性が存在する学習ベースの制御において、どのように高確率で安全性を保証できるか？
RQ2予測を通じて多ステップの不確実性を伝搬させ、安全な軌道を計画し実現可能性を維持できるか？
RQ3安全な探索を強化学習と統合して、制約を満たしつつタスク性能を向上させるには？
RQ4学習ダイナミクス下で再帰的な実現可能性を保証する上で、安全な終端集合の役割は何か？

主な発見

提案されたMPCスキームは学習を通じて高確率の安全性保証を提供する。
入力依存の不確実性を扱うための2つの不確実性伝搬技術を多ステップ予測に対して開発。
モデル誤差 g の信頼区間は GP/RKHS の仮定から導出され、安全性の信頼境界を可能にする。
このアプローチは安全探索と安全なモデルベースRLを支援し、安全軌道とタスク関連の性能軌道を計画する。
実験では倒立振り子で安全探索を、カートポールで安全なRLと安全制約を示した。
方法は安全バックアップコントローラと学習ベースのプランニングを組み合わせ、制約遵守と目標達成の進行を保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。