QUICK REVIEW

[논문 리뷰] Learning to be Safe: Deep RL with a Safety Critic

Krishnan Srinivasan, Benjamin Eysenbach|arXiv (Cornell University)|2020. 10. 27.

Robot Manipulation and Learning참고 문헌 32인용 수 26

한 줄 요약

이 논문은 안전한 Q-학습(SQRL)을 제안한다. SQRL은 사전에 안전성 비평가를 학습시켜 향후 실패 확률을 추정함으로써, 새로운 작업에 대해 더 안전하고 효율적으로 학습할 수 있도록 하는 딥 강화학습 프레임워크이다. 학습된 안전성 비평가를 통해 정책 업데이트를 제약함으로써, SQRL은 안전 사고를 최대 3배까지 감소시키며, 탐색, 이동, 조작 작업에서 표준 RL보다 안정적인 학습을 가속화한다.

ABSTRACT

Safety is an essential component for deploying reinforcement learning (RL) algorithms in real-world scenarios, and is critical during the learning process itself. A natural first approach toward safe RL is to manually specify constraints on the policy's behavior. However, just as learning has enabled progress in large-scale development of AI systems, learning safety specifications may also be necessary to ensure safety in messy open-world environments where manual safety specifications cannot scale. Akin to how humans learn incrementally starting in child-safe environments, we propose to learn how to be safe in one set of tasks and environments, and then use that learned intuition to constrain future behaviors when learning new, modified tasks. We empirically study this form of safety-constrained transfer learning in three challenging domains: simulated navigation, quadruped locomotion, and dexterous in-hand manipulation. In comparison to standard deep RL techniques and prior approaches to safe RL, we find that our method enables the learning of new tasks and in new environments with both substantially fewer safety incidents, such as falling or dropping an object, and faster, more stable learning. This suggests a path forward not only for safer RL systems, but also for more effective RL systems.

연구 동기 및 목표

안전성이 중요한 실세계 환경에 강화학습을 구현할 때, 수동으로 제약 조건을 지정하는 것이 비현실적이므로 이러한 과제를 해결하기 위해.
에이전트가 이전 경험에서의 안전성 직관을 새로운 작업으로 이관함으로써 점진적으로 안전한 행동을 학습할 수 있도록 하기 위해.
수동으로 작성된 안전 규칙에 의존하지 않고도 학습 중 안전한 탐색을 보장하는 방법을 개발하기 위해.
학습된 안전성 비평가를 사용해 정책을 제약함으로써 학습 효율성과 안정성을 향상시키기 위해.

제안 방법

동적 프로그래밍을 사용해 사전에 안전성 비평가 $Q_{\text{safe}}^{\bar{\pi}}$ 를 학습시켜, 상태-행동 쌍에서 향후 실패 확률을 추정한다.
사전에 학습된 안전성 비평가를 사용해 피니튜닝 중 정책 업데이트를 제약함으로써, 실패 확률이 낮은 행동들만 선택되도록 보장한다.
안전성 비평가와 정책을 두 단계로 학습한다: 안전성 중심 환경에서의 사전 학습 및 새로운 작업에서의 안전 제약 조건을 고려한 피니튜닝.
최대 허용 가능한 실패 확률을 제어하기 위해 안전성 임계값 $\epsilon_{\text{safe}}$ 를 도입한다.
SAC와 같은 표준 딥 강화학습 알고리즘에 안전성 비평가를 통합함으로써 현대 딥 강화학습 프레임워크와의 호환성을 확보한다.
오프라인 데이터나 시뮬레이션된 경험을 활용해 실패 사례(예: 넘어짐, 물체 떨어짐 등)에서 안전성 비평가를 사전 학습시킨다.

실험 결과

연구 질문

RQ1학습된 안전성 비평가는 새로운 작업에 대한 딥 강화학습 학습 중 안전 사고 수를 줄일 수 있는가?
RQ2안전성 비평가를 통합하면 제약 조건이 없는 강화학습에 비해 더 빠르고 안정적인 학습이 이루어지는가?
RQ3안전성 임계값 $\epsilon_{\text{safe}}$ 는 위험과 성능 간의 트레이드오프를 제어하는 데 사용될 수 있는가?
RQ4작업에 종속되지 않는 안전성 비평자는 더 복잡한 작업, 예를 들어 정교한 조작 작업 등에 일반화될 수 있는가?

주요 결과

2D 안내 작업에서 SQRL은 SAC에 비해 약 67%의 낙상 사고 감소를 기록했으며, 전체 에피소드의 5%만이 낙상 사고를 겪었다.
Minitaur 이동 작업에서 SQRL은 더 빠른 수렴과 낮은 실패율을 달성했으며, 표준 SAC보다 훨씬 더 안정적인 학습 곡선을 보였다.
정교한 큐브 회전 작업에서 SQRL은 모든 비교 방법보다 큐브를 덜 떨어뜨렸다. 다만 경계심 있는 행동으로 인해 약간의 성능 흐름이 있었음에도 불구하고.
안전성 임계값 $\epsilon_{\text{safe}}$ 는 위험 수준 제어에 효과적으로 기능했다: $\epsilon_{\text{safe}} = 0.05$ 일 때는 라바 풀을 완전히 피했고, $\epsilon_{\text{safe}} = 0.2$ 일 때는 위험한 경로를 통과하는 선택을 했다.
학습 곡선을 통해 SQRL의 제약된 탐색이 더 안정적이고 효율적인 학습을 이끌었음을 확인했으며, SAC는 위험한 탐색으로 인해 큰 성능 하락을 겪는 것을 방지했다.
안전성 비평가 덕분에 원래 작업의 더 어려운 버전으로 피니튜닝하는 동안에도 안전한 학습이 가능했으며, 이는 안전성 지식의 이식 가능성(transferability)을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.