QUICK REVIEW

[논문 리뷰] Worst Cases Policy Gradients

Yichuan Charlie Tang, Jian Zhang|arXiv (Cornell University)|2019. 11. 09.

Reinforcement Learning in Robotics참고 문헌 47인용 수 34

한 줄 요약

WCPG는 미래 보상의 분포를 모델링하고 다양한 위험 수준에 대해 CVaR를 최적화하는 위험 민감적 행동자-평가자 프레임워크를 도입하여, 운전 시뮬레이션에서 더 안전하고 강건한 제어를 위한 알파 조건화 정책을 가능하게 한다.

ABSTRACT

Recent advances in deep reinforcement learning have demonstrated the capability of learning complex control policies from many types of environments. When learning policies for safety-critical applications, it is essential to be sensitive to risks and avoid catastrophic events. Towards this goal, we propose an actor-critic framework that models the uncertainty of the future and simultaneously learns a policy based on that uncertainty model. Specifically, given a distribution of the future return for any state and action, we optimize policies for varying levels of conditional Value-at-Risk. The learned policy can map the same state to different actions depending on the propensity for risk. We demonstrate the effectiveness of our approach in the domain of driving simulations, where we learn maneuvers in two scenarios. Our learned controller can dynamically select actions along a continuous axis, where safe and conservative behaviors are found at one end while riskier behaviors are found at the other. Finally, when testing with very different simulation parameters, our risk-averse policies generalize significantly better compared to other reinforcement learning approaches.

연구 동기 및 목표

결과가 확률적인 안전-임무 중요 도메인에서 안전하고 강건한 시퀀스 의사결정을 촉진한다.
미래 보상의 분포를 모델링하고 평균 수익뿐 아니라 위험 인식 기준을 최적화한다.
연속 행동 공간과 오프 폴리시 학습을 지원하는 확장 가능한 배우-비평가 아키텍처를 개발한다.
리스크 매개변수 alpha에 조건화하여 위험 민감성의 연속 범위를 가능하게 한다.

제안 방법

각 상태-행동 쌍에 대해 미래 보상의 평균 Q와 분산 Upsilon를 모두 예측하는 분포적 비평가를 포함하도록 DDPG 배우-비평가 프레임워크를 확장한다.
리턴 분포 Z(s,a)를 평균 Q와 분산 Upsilon를 갖는 가우시안으로 모델링하고 이러한 매개변수로부터 폐쇄형 CVaR_alpha를 도출한다 (Gamma = Q - (phi(alpha)/Phi(alpha)) * sqrt(Upsilon).
비용이 큰 샘플링 없이 위험 민감한 목표를 제공하기 위해 폐쇄형으로 CVaR을 계산한다.
알파를 입력으로 받는 단일 신경망을 학습시켜 위험 민감 정책의 연속적인 계열 pi_theta(a|s, alpha)을 가능하게 한다.
오프 폴리시 경험 재생 버퍼를 사용하고 CVaR 기반 그래디언트를 비평가를 통해 역전파하여 배우와 비평가 네트워크를 모두 업데이트한다.
알파를 입력으로 주입하여 이산화하거나 매개변수화한다; 학습 중에는 에피소드마다 alpha를 샘플링하여 다양한 위험 선호 정책의 범위를 학습한다.

실험 결과

연구 질문

RQ1분포형 크리틱을 통해 CVaR(alpha)를 최적화하는 것이 연속 제어 작업에서 위험에 대한 강건성을 향상시키는가?
RQ2단일 네트워크가 alpha를 조건으로 하여 위험 민감 정책의 연속체를 학습할 수 있는가, 그리고 이것이 다양한 위험 선호도에서 성능에 어떤 영향을 미치는가?
RQ3제안된 방법이 분포를 벗어난 환경 매개변수에 직면했을 때 최신 RL 방법과 어떻게 비교되는가?
RQ4에이전트가 중요한 조작에 다가갈 때 학습된 비평가가 불확실성과 위험에 대해 무엇을 보여주는가?
RQ5제Approach가 제한된 재훈련으로 관련 시뮬레이션 환경(예: CARLA)으로 이전될 수 있는가?

주요 결과

WCPG는 알파가 감소할수록 충돌 가능성을 감소시키는 위험 회피 정책을 학습한다.
더 작은 alpha는 운전 작업에서 더 보수적인 행동과 더 긴 완료 시간으로 이어진다.
비평가의 추정 불확실성은 고위험 상황(예: 근접하여 다가오는 차량)에서 증가하고 maneuvers가 완료된 후 감소한다.
분포를 벗어난 환경 매개변수에 외삽했을 때, 낮은 alpha를 가진 WCPG가 베이스라인 방법들에 비해 우수한 강건성을 보인다.
WCPG로 학습된 정책은 서로 다른 시뮬레이션 매개변수에 대한 일반화가 더 잘 이루어지고 CARLA 시나리오로의 전이도 가능하며, 더 낮은 alpha에서도 강건성을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.