QUICK REVIEW

[論文レビュー] Safe Reinforcement Learning in Constrained Markov Decision Processes

Akifumi Wachi, Yanan Sui|arXiv (Cornell University)|Aug 15, 2020

Reinforcement Learning in Robotics被引用数 54

ひとこと要約

SNO-MDPを導入した制約付きMDPに対する安全なほぼ最適な強化学習アルゴリズムとES2を用いて安全探索を加速する手法を提案し、GP-Safety-GymとMarsの地形データで検証。

ABSTRACT

Safe reinforcement learning has been a promising approach for optimizing the policy of an agent that operates in safety-critical applications. In this paper, we propose an algorithm, SNO-MDP, that explores and optimizes Markov decision processes under unknown safety constraints. Specifically, we take a stepwise approach for optimizing safety and cumulative reward. In our method, the agent first learns safety constraints by expanding the safe region, and then optimizes the cumulative reward in the certified safe region. We provide theoretical guarantees on both the satisfaction of the safety constraint and the near-optimality of the cumulative reward under proper regularity assumptions. In our experiments, we demonstrate the effectiveness of SNO-MDP through two experiments: one uses a synthetic data in a new, openly-available environment named GP-SAFETY-GYM, and the other simulates Mars surface exploration by using real observation data.

研究の動機と目的

安全性と報酬を balanced に取る必要がある安全 critical アプリケーションに対する安全な RL の動機づけ。
まず安全性制約を学習し、次に認定された安全領域内で累積報酬を最適化する逐次的手法を開発する。
正則性仮定の下で安全性満足とほぼ最適な報酬についてPAC-MDP風の理論保証を提供する。
safet y 保証を維持しつつ安全探索を加速するES2を提案する。
合成的なGP-Safety-Gym実験とMars地形データのシミュレーションを通じて有効性を示す。

提案手法

未知の関数を捉え、楽観的/悲観的な安全空間を導出するために安全性と報酬をガウス過程でモデリングする。
到達性と戻り可能性の制約を用いて悲観的な安全空間 S_t^- と楽観的な安全空間 S_t^+ を定義し、安全な拡張を保証する。
β_tとα_tを用いたGP由来の信頼区間で g(s) と r(s) を高い確率で上下に制約する。
SNO-MDPを二段階アルゴリズムとして実装する：まず安全領域を拡張し、次に認定された安全領域内で報酬を最適化する。
安全探索を止める条件と補助的な MDP M_y の評価によって、さらなる探索が報酬を改善できない場合に探索を早期停止するES2を導入する。
RKHSとリップシッツ条件の下で安全性/完全性定理1、近似最適性定理2、ES2を用いた近似最適性定理3などの理論保証を提供する。

実験結果

リサーチクエスチョン

RQ1制約付きMDPにおいて未知の報酬関数を学習しつつ安全性制約を保証できるか。
RQ2安全性を先に学習し、その後報酬を最適化する逐次的アプローチは安全保証付きのほぼ最適方針を生み出すか。
RQ3安全性の探索を安全保証を損なうことなくどのように加速できるか。
RQ4規則性仮定の下でSNO-MDPとそのES2変種に対して理論的なPAC-MDP様の保証が成り立つか。

主な発見

SNO-MDPは探索中に高確率で安全性を保証し、安全領域内でほぼ最適な累積報酬を達成する。
アルゴリズムは、指定された条件の下で approximately ε_g-安全 reachable set を含む安全領域へ収束し、安全性完備を保証する。
SNO-MDPは十分な探索後、ε_V近傍の最適報酬を達成し、高確率の安全保証（PAC-MDP風）を満たす。
ES2は報酬を改善できない場合に安全探索を停止させることで探索ステップを削減しつつ近似最適性の保証を維持する。
P-ES2は安全性の確率的扱いによる実用的な改善を提供するが、正式な近似最適性保証はない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。