[논문 리뷰] Robust Reinforcement Learning for Continuous Control with Model Misspecification
이 논문은 최악의 경우 수익을 최적화하기 위해 Robust MPO (R-MPO)와 Soft Robust MPO (SRE-MPO)를 도입하여, MPO를 강인하고 엔트로피 규제 벨만 연산자로 확장하고, Mujoco 도메인 9개와 고차원 Shadow hand에서 성능 향상을 입증한다.
We provide a framework for incorporating robustness -- to perturbations in the transition dynamics which we refer to as model misspecification -- into continuous control Reinforcement Learning (RL) algorithms. We specifically focus on incorporating robustness into a state-of-the-art continuous control RL algorithm called Maximum a-posteriori Policy Optimization (MPO). We achieve this by learning a policy that optimizes for a worst case expected return objective and derive a corresponding robust entropy-regularized Bellman contraction operator. In addition, we introduce a less conservative, soft-robust, entropy-regularized objective with a corresponding Bellman operator. We show that both, robust and soft-robust policies, outperform their non-robust counterparts in nine Mujoco domains with environment perturbations. In addition, we show improved robust performance on a high-dimensional, simulated, dexterous robotic hand. Finally, we present multiple investigative experiments that provide a deeper insight into the robustness framework. This includes an adaptation to another continuous control RL algorithm as well as learning the uncertainty set from offline data. Performance videos can be found online at https://sites.google.com/view/robust-rl.
연구 동기 및 목표
- 연속 제어 RL에서 전이 다이내믹스 교란(모델 미스매치)에 대한 강인성에 대한 동기를 부여한다.
- R-MPO에 강인성을 도입하고 엔트로피 규제 목적에도 확장한다.
- 수축 특성을 가진 강인하고 소프트 강인 엔트로피 규제 벨만 연산자를 개발한다.
- 여러 MuJoCo 도메인과 고차원 정교한 손 제어에서 강인성을 실증적으로 검증한다.
- 오프라인 데이터로부터 불확실성 집합을 학습하는 등의 추가 분석 및 다른 알고리즘으로의 적응을 탐구한다.
제안 방법
- 미래 상태에 대한 불확실성 집합에 대한 최저값(Infimum)으로 표준 TD 오차를 대체하여 robust 벨만 연산자를 도출한다.
- 이를 MPO의 정책 평가 단계에 통합하여 robust 가치 함수를 학습하고 robust 제안 분포를 통해 robust 정책을 도출한다.
- 연산자를 강인 및 소프트-강인 엔트로피 규제 버전으로 확장하고 수축 특성을 증명한다.
- 강인 엔트로피 규제 MPO(RE-MPO)와 소프트 RE-MPO(SRE-MPO)를 구현하고 E-MPO 및 MPO와 비교한다.
- 아홉 개의 MuJoCo 도메인과 Shadow hand에서 강인성을 입증하고(불확실성 집합 설계, 도메인 무작위화, 오프라인 데이터 등) 탐구적 분석을 수행한다.
실험 결과
연구 질문
- RQ1전달 perturbation에 대한 worst-case 강인성을 연속 제어 태스크에서 모델 미스매치하에 도입하면 성능이 향상되는가?
- RQ2강인하고 소프트-강인 엔트로피 규제 목적이 표준 MPO와 비교하여 다양한 도메인에서 어떤 차이를 보이는가?
- RQ3강인성 기법이 다른 RL 알고리즘으로 전이될 수 있으며 오프라인 데이터로부터 불확실성 집합을 학습할 수 있는가?
- RQ4불확실성 집합 설계와 도메인 무작위화가 강인성 성능에 어떤 영향을 주는가?
- RQ5Shadow hand와 같이 고차원적이고 정교한 제어에서 강인성이 어떻게 확장되는가?
주요 결과
- Robust MPO (R-MPO) 및 Soft ROBUST MPO (SR-MPO)는 환경 교란이 있는 아홉 개의 MuJoCo 도메인에서 비강인(non-robust) 대비 성능을 능가한다.
- 엔트로피 규제 버전(RE-MPO 및 SRE-MPO)은 비강인 버전과 최소한 같거나 때로는 더 나은 성능을 보인다.
- Robust 방법은 비강인 MPO와 비교하여 고차원 Shadow hand 태스크에서도 성능이 향상된다.
- Soft-robust 변형은 종종 비강인 베이스라인보다 우수한 성능을 보이지만, 일부 태스크에서 큰 교란 시 이점이 감소할 수 있다.
- 오프라인 데이터로부터 불확실성 집합을 학습하는 DDR-MPO는 데이터 크기가 커질수록 경쟁력 있거나 더 우수한 강인성을 보일 수 있으며, 대규모 데이터세트에서는 R-MPO 성능으로 수렴한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.