[논문 리뷰] Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark
Safety-Gymnasium 소개, Gymnasium- 및 Issac-Gym 기반 환경과 16-알고리즘 SafePO 라이브러리를 갖춘 통합 SafeRL 벤치마크로, 벡터 및 시각 입력이 있는 단일 에이전트 및 다중 에이전트 작업 전반의 안전 성능 평가를 가능하게 한다.
Artificial intelligence (AI) systems possess significant potential to drive societal progress. However, their deployment often faces obstacles due to substantial safety concerns. Safe reinforcement learning (SafeRL) emerges as a solution to optimize policies while simultaneously adhering to multiple constraints, thereby addressing the challenge of integrating reinforcement learning in safety-critical scenarios. In this paper, we present an environment suite called Safety-Gymnasium, which encompasses safety-critical tasks in both single and multi-agent scenarios, accepting vector and vision-only input. Additionally, we offer a library of algorithms named Safe Policy Optimization (SafePO), comprising 16 state-of-the-art SafeRL algorithms. This comprehensive library can serve as a validation tool for the research community. By introducing this benchmark, we aim to facilitate the evaluation and comparison of safety performance, thus fostering the development of reinforcement learning for safer, more reliable, and responsible real-world applications. The website of this project can be accessed at https://sites.google.com/view/safety-gymnasium.
연구 동기 및 목표
- 자율 시스템 및 의료와 같은 다양한 도메인에서 실제 세계의 안전-critical 배포를 위한 안전 강화 학습의 필요성을 모티베이트한다.
- 다양한 안전 제약을 가진 단일 에이전트, 다중 에이전트, 비전 기반 작업을 포괄하는 확장 가능하고 포괄적인 벤치마크 스위트(Safety-Gymnasium)를 제공한다.
- 엄격한 평가와 비교를 위한 16개의 최첨단 SafeRL 방법으로 구성된 광범위한 알고리즘 라이브러리(SafePO)를 제공한다.
- 환경, 제약 및 성능 메타데이터를 상세히 제시하여 커뮤니티 검증 및 재현성을 촉진한다.
제안 방법
- Gymnasium과 MuJoCo를 기반으로 비전 기반 및 Issac-Gym 구성 요소를 갖춘 고차원 작업용 환경 스위트로 Safety-Gymnasium을 개발한다.
- 고차원, 비전 기반 변형을 포함하여 더 많은 에이전트, 작업 및 안전 제약을 포함하도록 Safety Gym 작업을 상속하고 확장한다.
- 로봇 유형(Point, Car, Doggo, Racecar, Ant) 및 작업(Velocity, Run, Circle, Goal, Push, Button)을 포함하는 Safety-Gymnasium 분류체계를 제시한다.
- 속도, 장애물, 위험, sigwalls, vases, gremlins 등 안전 제약을 정의하고, 시각 입력(RGB 및 RGB-D)을 제공하여 시각 기반 SafeRL을 평가한다.
- 저수준 구현이 분리된 16개의 SafeRL 알고리즘을 포함하는 단일 파일 형식의 라이브러리 SafePO를 소개하여 확장과 비교를 용이하게 한다.
실험 결과
연구 질문
- RQ1단일 에이전트 및 다중 에이전트 작업 전반에 걸친 안전 성능 평가를 지원하는 통합 SafeRL 벤치마크 스위트(Safety-Gymnasium)가 어떻게 작동할 수 있는가?
- RQ2다양한 안전 제약과 작업 복잡도 하에서 SafePO의 서로 다른 SafeRL 알고리즘의 비교 성능은 어떠한가?
- RQ3비전 기반 입력과 고차원 환경이 SafeRL 알고리즘의 안전성과 효율성에 어떠한 영향을 미치는가?
- RQ4SafeRL 벤치마킹의 재현성과 커뮤니티 검증을 가능하게 하는 가이드라인과 메타데이터는 무엇인가?
주요 결과
- Safety-Gymnasium은 단일 에이전트 및 다중 에이전트 설정에서 제약의 복잡도가 다른 54개 환경에 걸쳐 평가를 가능하게 한다.
- SafeRL 알고리즘은 일반적으로 안전 제약을 준수하면서 보상을 극대화하는 경향이 있으며, 방법에 따라 보상과 비용 간의 trade-off가 두드러진다.
- 라그랑주 기반 방법은 진동을 보일 수 있는 반면, 프로젝션 기반 방법은 서로 다른 비용/보상 균형을 달성할 수 있으며, PID-Lagrangian 변형은 성능을 유지하며 안전성을 개선할 수 있다.
- 시각 및 Issac-Gym 기반 환경은 데이터 수집을 크게 가속화하고 보다 현실적이며 확장 가능한 SafeRL 실험을 가능하게 한다.
- SafePO는 강력한 확장성과 자세한 로깅/시각화를 제공하여 기존 SafeRL 벤치마크와의 강력한 비교를 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.