QUICK REVIEW

[論文レビュー] Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark

Jiaming Ji, Borong Zhang|arXiv (Cornell University)|Oct 19, 2023

Reinforcement Learning in Robotics被引用数 15

ひとこと要約

Safety-Gymnasiumを紹介する。Gymnasium-およびIssac-Gymベースの環境と16アルゴリズムのSafePOライブラリを備えた統一 SafeRL ベンチマークで、ベクトル入力および視覚入力を用いた単一エージェントおよびマルチエージェントタスクにおける安全性パフォーマンスの評価を可能にする。

ABSTRACT

Artificial intelligence (AI) systems possess significant potential to drive societal progress. However, their deployment often faces obstacles due to substantial safety concerns. Safe reinforcement learning (SafeRL) emerges as a solution to optimize policies while simultaneously adhering to multiple constraints, thereby addressing the challenge of integrating reinforcement learning in safety-critical scenarios. In this paper, we present an environment suite called Safety-Gymnasium, which encompasses safety-critical tasks in both single and multi-agent scenarios, accepting vector and vision-only input. Additionally, we offer a library of algorithms named Safe Policy Optimization (SafePO), comprising 16 state-of-the-art SafeRL algorithms. This comprehensive library can serve as a validation tool for the research community. By introducing this benchmark, we aim to facilitate the evaluation and comparison of safety performance, thus fostering the development of reinforcement learning for safer, more reliable, and responsible real-world applications. The website of this project can be accessed at https://sites.google.com/view/safety-gymnasium.

研究の動機と目的

自動運転システムや医療など、実世界の安全 critical 展開において安全な強化学習を不可欠とする動機づけ。
包摂的でスケーラブルなベンチマークスイート（Safety-Gymnasium）を提供し、単一エージェント、マルチエージェント、視覚ベースのタスクとさまざまな安全制約を横断。
最先端のSafeRL手法16件を含む幅広いアルゴリズムライブラリ（SafePO）を提供し、厳密な評価と比較を可能にする。
環境、制約、パフォーマンスメタデータを詳述することで、コミュニティの検証と再現性を促進する。

提案手法

GymnasiumとMuJoCoに基づく環境スイートとしてSafety-Gymnasiumを開発し、高次元タスクのための視覚ベースおよびIssac-Gymコンポーネントを搭載。
Safety Gymのタスクを受け継ぎ、より多くのエージェント、タスク、安全制約を追加し、高次元・視覚ベースのバリアントを含む。
ロボットタイプ（Point、Car、Doggo、Racecar、Ant）とタスク（Velocity、Run、Circle、Goal、Push、Button）を含むSafety-Gymnasiumの分類を提示。
安全制約（例: 速度、障害物、危険、sigwalls、vases、gremlins）を定義し、視覚入力（RGBおよびRGB-D）を提供して視覚ベースのSafeRLを評価する。
SafePOを導入する。単一ファイルスタイルのライブラリで、拡張と比較を容易にするために分離実装を持つ16のSafeRLアルゴリズムを収容。

実験結果

リサーチクエスチョン

RQ1統一されたSafeRLベンチマークスイート（Safety-Gymnasium）は、単一エージェントおよびマルチエージェントタスクにわたる安全性性能の包括的評価をどのように支援できるか。
RQ2SafePOの異なるSafeRLアルゴリズムの比較性能は、さまざまな安全制約とタスクの複雑さのもとでどうなるか。
RQ3視覚ベース inputsと高次元環境はSafeRLアルゴリズムの安全性と効率にどのように影響するか。
RQ4SafeRLベンチマークにおける再現性とコミュニティ検証を可能にするために、どのようなガイドラインとメタデータが必要か。

主な発見

Safety-Gymnasiumは、単一エージェントとマルチエージェント設定にまたがり、異なる制約の複雑さを持つ54環境での評価を可能にする。
SafeRLアルゴリズムは、報酬を最大化しつつ安全制約を守る傾向があり、方法によって報酬とコストのトレードオフが顕著に現れる。
ラグランジアンベースの方法は振動を示すことがあり、射影ベースの方法は異なるコスト/報酬バランスを達成する場合がある。PID-Lagrangian変種は性能を維持しつつ安全性を向上させることができる。
視覚ベースおよびIssac-Gymベースの環境は、データ収集を大幅に加速し、より現実的でスケーラブルなSafeRL実験を可能にする。
SafePOは強力な拡張性と詳細なログ/可視化を提供し、既存のSafeRLベンチマークとの堅牢な比較を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。