[논문 리뷰] Residual Policy Learning
RPL은 임의의 초기 정책에 학습 가능한 잔여(residual)를 추가하여 딥 RL로 성능과 데이터 효율성을 개선하고, 장기적 시퀀스의 희소 보상 로봇 조작 작업에서 성능을 향상시킵니다.
We present Residual Policy Learning (RPL): a simple method for improving nondifferentiable policies using model-free deep reinforcement learning. RPL thrives in complex robotic manipulation tasks where good but imperfect controllers are available. In these tasks, reinforcement learning from scratch remains data-inefficient or intractable, but learning a residual on top of the initial controller can yield substantial improvements. We study RPL in six challenging MuJoCo tasks involving partial observability, sensor noise, model misspecification, and controller miscalibration. For initial controllers, we consider both hand-designed policies and model-predictive controllers with known or learned transition models. By combining learning with control algorithms, RPL can perform long-horizon, sparse-reward tasks for which reinforcement learning alone fails. Moreover, we find that RPL consistently and substantially improves on the initial controllers. We argue that RPL is a promising approach for combining the complementary strengths of deep reinforcement learning and robotic control, pushing the boundaries of what either can achieve independently. Video and code at https://k-r-allen.github.io/residual-policy-learning/.
연구 동기 및 목표
- 복잡한 로봇 조작 작업에서 처음부터 학습의 데이터 비효율성을 동기화하고 해결합니다.
- 어떤 초기 정책이든 보강하기 위한 간단한 잔여 학습 프레임워크를 제안합니다.
- 잔여를 학습시키는 것이 다양한 초기 정책 소스로부터의 성능 향상을 보여줍니다.
- 부분 관측, 노이즈 및 모델 오적합성으로 어려운 MuJoCo 작업에서 데이터 효율성 향상과 로버스트성을 입증합니다.
제안 방법
- 초기 정책 pi를 학습된 잔여 f_theta로 보강하여 pi_theta(s) = pi(s) + f_theta(s) 형태를 만듭니다.
- 잔여를 잔여 MDP M^(pi)의 정책으로 간주하고 전이 T^(pi)(s,a,s') = T(s, pi(s) + a, s')로 정의합니다.
- 모델-프리 딥 RL 방법(DDPG with HER)을 사용하여 f_theta를 학습하되 마지막 층은 0으로 초기화하여 pi를 보존합니다.
- 초기 정책이 강하지만 평가자가 뒤처지는 학습 안정화를 위한 번인 기간 동안 평가자를 고정할 수 있습니다.
- 필요 시 POMDP를 위한 단기 상태 히스토리를 활용한 순환 정책으로 확장합니다.
- 초기 정책 단독, 학습-from-scratch (DDPG+HER), Expert-Explore 변형 등과의 비교 대상을 제공합니다.
실험 결과
연구 질문
- RQ1잔여 정책 학습이 손으로 설계된 정책, MPC, 혹은 캐시된 모델 기반 컨트롤러를 포함한 다양한 초기 정책에서 일관되게 성능을 향상시킬 수 있나요?
- RQ2장기적 시퀀스의 희소 보상 로봇 작업에서 RPL이 처음부터 학습하는 것보다 데이터 효율적인가요?
- RQ3부분 관측, 센서 노이즈 및 모델 오치로케이션에서 RPL은 어떻게 작동하나요?
- RQ4잔여 정책이 실패를 보정하면서 좋은 초기 정책의 성능을 보존하나요?
- RQ5실무에서 RPL이 모델 기반 RL 방법을 능가하거나 보완할 수 있나요?
주요 결과
- RPL은 여섯 개의 MuJoCo 조작 작업 전반에서 초기 정책의 성능을 크게 향상시킵니다.
- 많은 경우 RPL은 처음부터 학습하는 것보다 훨씬 적은 샘플로 수렴합니다(예: PickAndPlace에서 약 10배 적은 샘플로 수렴).
- RPL은 센서 노이즈 및 구조적 불확실성에 대해 강건성을 보여 Baseline이 실패하는 환경에서도 높은 성공률을 달성합니다.
- RPL은 모델 기반 RL 벤치마크(PETS)를 능가할 수 있으며 모델 기반 컨트롤러 위에 사용될 때 수렴 속도를 높일 수 있습니다(CachedPETS).
- Expert-Explore 벤치마크는 탐색을 개선하지만 RPL의 데이터 효율성을 완전히 설명하지 못해 잔여 매개변수화 및 초기화의 이점을 시사합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.