QUICK REVIEW

[논문 리뷰] Cautious Adaptation For Reinforcement Learning in Safety-Critical Settings

Jesse Zhang, Brian Cheung|arXiv (Cornell University)|2020. 08. 15.

Anomaly Detection Techniques and Applications인용 수 26

한 줄 요약

이 논문은 실세계의 고비용 실패가 발생하는 환경으로의 강화학습 적용을 위해 안전 기반 적응 프레임워크를 제안한다. 에이전트는 시뮬레이션된 소스 환경에서의 위험 인식 행동을 실세계 타겟 환경으로 전이하며, Cautious Adaptation in RL (CARL)을 사용해 사전 훈련 단계에서 확률적 동역학 모델을 구축하여 불확실성을 추정하고, 적응 단계에서 위험 회피 계획을 수행함으로써 강력한 기준 대비 극단적인 실패 수를 크게 줄이고 보다 높은 보상을 달성한다. 이는 주행, 제어 및 조작 작업 전반에서 성능을 향상시킨다.

ABSTRACT

Reinforcement learning (RL) in real-world safety-critical target settings like urban driving is hazardous, imperiling the RL agent, other agents, and the environment. To overcome this difficulty, we propose a "safety-critical adaptation" task setting: an agent first trains in non-safety-critical "source" environments such as in a simulator, before it adapts to the target environment where failures carry heavy costs. We propose a solution approach, CARL, that builds on the intuition that prior experience in diverse environments equips an agent to estimate risk, which in turn enables relative safety through risk-averse, cautious adaptation. CARL first employs model-based RL to train a probabilistic model to capture uncertainty about transition dynamics and catastrophic states across varied source environments. Then, when exploring a new safety-critical environment with unknown dynamics, the CARL agent plans to avoid actions that could lead to catastrophic states. In experiments on car driving, cartpole balancing, half-cheetah locomotion, and robotic object manipulation, CARL successfully acquires cautious exploration behaviors, yielding higher rewards with fewer failures than strong RL adaptation baselines. Website at https://sites.google.com/berkeley.edu/carl.

연구 동기 및 목표

실패 비용이 높은 안전 중심의 실세계 환경에서 강화학습을 구현하는 데 도전하는 데 목적을 두며.
다양한 비안전 중심 소스 도메인에서의 이전 경험을 활용해 새로운 환경으로의 빠른 안전한 적응을 가능하게 하는 데 목적을 두며.
모르는 타겟 환경에서 탐색 중에 불확실성을 추정하고 위험 회피 행동을 강제화하는 방법을 개발하는 데 목적을 두며.
표준 강화학습 및 메타학습 기준 대비 샘플 효율성과 안전성 측면에서 위험 회피 적응이 뛰어나다는 것을 입증하는 데 목적을 두며.

제안 방법

모델 기반 강화학습을 사용해 다양한 소스 환경에서 환경 동역학과 참사 발생 가능성의 확률적 모델을 사전 훈련한다.
변분 추론을 사용해 동역학 모델 내의 지식적 불확실성(에피스테믹 불확실성)을 추정하여 가능한 결과에 대한 분포 불확실성을 포착한다.
새로운 타겟 환경에서의 적응 단계 동안, 참사 상태에 도달할 확률을 최소화하는 위험 회피 목표를 사용해 행동을 계획한다.
경험 기반으로 얻은 신규 경험을 경계 탐색을 통해 동역학 모델에 통합하여 예측을 반복적으로 개선하고 신뢰도를 향상시킨다.
실패 상태에 도달할 가능성이 높은 행동을 처벌하는 안전 제약 조건을 포함한 위험 회피 계획을 적용한다.
상태 기반 및 보상 기반 위험 모델링을 모두 사용해 다양한 위험 회피 전략의 성능 및 안전성에 미치는 영향을 평가한다.

실험 결과

연구 질문

RQ1다양하고 비안전 중심의 소스 환경에서의 지식을 새로운 고비용 타겟 환경으로 전이하여 안전한 적응을 가능하게 할 수 있는가?
RQ2학습된 불확실성을 기반으로 한 위험 회피 계획이 적응 과정에서 샘플 효율성을 향상시키고 극단적인 실패를 줄이는 데 어떻게 기여하는가?
RQ3지식적 불확실성을 추정하는 모델 기반 접근 방식이 안전 중심 적응에서 메타학습 및 표준 강화학습 기준 대비 뛰어난 성능을 보일 수 있는가?
RQ4계획 과정에서 유도된 위험 회피 행동의 정성적 특성은 무엇이며, 이는 작업에 대해 해석 가능하고 적절한가?

주요 결과

더 긴 막대를 가진 CartPole 환경에서 CARL는 모든 기준 대비 높은 수익(70 이상)을 달성했고, 10회의 적응 단계 내에 크게 향상되지 못한 기준 대비 극단적인 실패를 지연시켰다.
앞다리를 마비시킨 Half-Cheetah 환경에서 CARL (State)는 모든 기준 대비 높은 보상을 유지하며 최고 성능을 보였고, PPO-MAML 및 RARL: 2x Itr는 적응에 실패했다.
Duckietown 환경에서 CARL (State)는 시간이 지남에 따라 충돌 빈도를 감소시켰고, 유일하게 회전을 성공적으로 완료한 방법이었다. 다른 방법들은 거의 매 에피소드마다 충돌했다.
Baoding 환경에서 CARL (State)는 다른 방법들보다 공을 떨어뜨리는 횟수를 크게 줄였고, 첫 번째 적응 에피소드부터 상당히 높은 보상을 달성했다.
CARL (State)는 더 넓은 회전, 느린 속도, 회전을 완료하기 위해 후진하는 등의 해석 가능한 위험 회피 행동을 보였으며, 이는 표준 에이전트에서는 관찰되지 않았다.
위험 회피 계획 전략 덕분에 CARL는 CartPole 및 Duckietown의 가장 먼 테스트 설정과 같은 분포 외 환경에서도 높은 성능을 유지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.