QUICK REVIEW

[論文レビュー] A Review of Safe Reinforcement Learning: Methods, Theory and Applications

Shangding Gu, Long Yang|arXiv (Cornell University)|May 20, 2022

Safety Systems Engineering in Autonomy被引用数 101

ひとこと要約

本論文は安全な強化学習を概説し、2H3Wフレームワーク（Safety Policy、Safety Complexity、Safety Applications、Safety Benchmarks、Safety Challenges）を導入し、モデルベースおよびモデルフリーの方法を分析し、理論、ベンチマーク、実世界の応用について論じる。

ABSTRACT

Reinforcement Learning (RL) has achieved tremendous success in many complex decision-making tasks. However, safety concerns are raised during deploying RL in real-world applications, leading to a growing demand for safe RL algorithms, such as in autonomous driving and robotics scenarios. While safe control has a long history, the study of safe RL algorithms is still in the early stages. To establish a good foundation for future safe RL research, in this paper, we provide a review of safe RL from the perspectives of methods, theories, and applications. Firstly, we review the progress of safe RL from five dimensions and come up with five crucial problems for safe RL being deployed in real-world applications, coined as "2H3W". Secondly, we analyze the algorithm and theory progress from the perspectives of answering the "2H3W" problems. Particularly, the sample complexity of safe RL algorithms is reviewed and discussed, followed by an introduction to the applications and benchmarks of safe RL algorithms. Finally, we open the discussion of the challenging problems in safe RL, hoping to inspire future research on this thread. To advance the study of safe RL algorithms, we release an open-sourced repository containing the implementations of major safe RL algorithms at the link: https://github.com/chauncygu/Safe-Reinforcement-Learning-Baselines.git.

研究の動機と目的

RLにおける安全概念を定義し、既存の定義と関連付ける。
5つのコアな安全RL問題（2H3W）と、それらが実世界への展開に与える影響を特定する。
理論的および実証的知見を伴う安全なモデルベースおよびモデルフリーのアルゴリズムを調査する。
将来の研究を導くために、安全性ベンチマーク、応用、課題について議論する。
分野を支援するためのオープンなベンチマークスイートとオープンソース実装を提供する。

提案手法

安全なRLを制約付きマルコフ決定過程（CMDP）として位置づける。
Lyapunov法、MPC、ガウス過程、形式法などのモデルベース安全RLアプローチとそれらの収束解析を調査する。
CPOやプリムアル・デュアル法を含む、政策ベースおよび値ベースの安全RLアプローチを調査する。
表形式/線形および深層設定の双方における安全RL法のサンプル複雑さと収束について議論する。
安全性ベンチマーク（例：AI Safety Gridworlds、Safety Gym、Safe MAMuJoCo）と安全性のためのコスト/リワード関数設計を提示する。
提供されたGitHubリポジトリのリンクにて、オープンソースのベンチマークスイートとチュートリアルを提供する。

実験結果

リサーチクエスチョン

RQ1さまざまな安全性定義におけるRLにおける安全なポリシーとは何か？
RQ2理論的保証を伴うCMDP安全RL問題をどのように定式化し解くことができるか？
RQ3特に深層・高次元問題に対して、実践的な安全RL法のサンプル複雑性はどれくらいか？
RQ4報酬の最適化と併せて安全性の性能を公正に評価するベンチマークは何か？
RQ5実世界・マルチエージェント・対抗設定における安全RLの主な課題と未解決の問題は何か？],
RQ6key_findings':['本論文はSafe RL研究をSafety Policy、Safety Complexity、Safety Applications、Safety Benchmarks、Safety Challengesの5領域で構造化する2H3Wフレームワークを提案する。','Lyapunovベースおよびガウス過程ベースの手法を含むモデルベースとモデルフリーのアプローチを通じて安全RLを分析し、それらの収束性を議論する。','CMDPベースの手法（ primal-dual、CVaR、制約付きポリシー最適化）を調査・分類し、安全性保証と計算コストのトレードオフを強調する。','自動運転、ロボティクス、動画圧縮などの複数の実世界アプリケーションと、複数の安全性ベンチマーク（AI Safety Gridworlds、Safety Gym、Safe MAMuJoCo、Safe MARobosuite）をレビューする。','著者らは再現性と安全RL研究の進展を促進するために、ベンチマークスイートとオープンソース実装を公開する。'],
RQ7table_headers: []
RQ8table_rows: []

主な発見

本論文はSafe RL研究をSafety Policy、Safety Complexity、Safety Applications、Safety Benchmarks、Safety Challengesの5領域で構造化する2H3Wフレームワークを提案する。
Lyapunovベースおよびガウス過程ベースの手法を含むモデルベースとモデルフリーのアプローチを通じて安全RLを分析し、それらの収束性を議論する。
CMDPベースの手法（ primal-dual、CVaR、制約付きポリシー最適化）を調査・分類し、安全性保証と計算コストのトレードオフを強調する。
自動運転、ロボティクス、動画圧縮などの複数の実世界アプリケーションと、複数の安全性ベンチマーク（AI Safety Gridworlds、Safety Gym、Safe MAMuJoCo、Safe MARobosuite）をレビューする。
著者らは再現性と安全RL研究の進展を促進するために、ベンチマークスイートとオープンソース実装を公開する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。