[논문 리뷰] Decoupling Exploration and Exploitation in Reinforcement Learning
이 논문은 내재 보상 기반 강화학습에서의 불안정성과 하이퍼파rameter 민감도 문제를 해결하기 위해 탐색과 이용을 위한 별도의 정책을 학습하는 방법인 분리된 강화학습(DeRL)을 제안한다. DeRL은 더 적은 환경 상호작용으로도 내재 동기 기반 기준보다 유사하거나 더 나은 성능을 달성하며, 내재 보상 감쇠율에 대해 더 뛰어난 강인성을 보인다.
Intrinsic rewards are commonly applied to improve exploration in reinforcement learning. However, these approaches suffer from instability caused by non-stationary reward shaping and strong dependency on hyperparameters. In this work, we propose Decoupled RL (DeRL) which trains separate policies for exploration and exploitation. DeRL can be applied with on-policy and off-policy RL algorithms. We evaluate DeRL algorithms in two sparse-reward environments with multiple types of intrinsic rewards. We show that DeRL is more robust to scaling and speed of decay of intrinsic rewards and converges to the same evaluation returns than intrinsically motivated baselines in fewer interactions.
연구 동기 및 목표
- 비정적 보상 설계로 인해 발생하는 내재 보상 기반 강화학습의 불안정성 문제를 해결하기 위해.
- 내재 보상 스케줄링에서 하이퍼파rameter에 대한 의존도를 줄이기 위해.
- 탐색과 이용 정책을 분리함으로써 샘플 효율성을 향상시키기 위해.
- 온-폴리시 및 오프-폴리시 강화학습 알고리즘 모두와의 호환성을 보장하기 위해.
- 내재 보상 감쇠율과 스케일링의 변화에 대한 강인성을 평가하기 위해.
제안 방법
- DeRL는 내재 보상으로 최적화되는 탐색 정책과 외재 보상으로 최적화되는 이용 정책을 별도로 학습한다.
- 탐색 정책은 내재 호기심 또는 내재 수익을 최대화하도록 학습되며, 이용 정책은 외재 수익을 최대화하도록 집중된다.
- 두 정책은 독립적으로 학습되어 최적화 목표가 분리되고 간섭이 감소된다.
- 이 방법은 PPO 및 SAC와 같은 온-폴리시 및 오프-폴리시 강화학습 알고리즘과 호환된다.
- 내재 보상 신호는 탐색 정책 학습 기간 동안만 사용되며, 이용 정책 업데이트에는 사용되지 않는다.
- 이 접근법은 탐색 및 이용 구성 요소의 하이퍼파rameter를 별도로 튜닝할 수 있도록 허용한다.
실험 결과
연구 질문
- RQ1DeRL은 희소 보상 환경에서 내재 동기 기반 기준 대비 최종 평가 수익에서 어떻게 성능을 발휘하는가?
- RQ2DeRL은 내재 보상 감쇠율과 스케일링의 변화에 대해 얼마나 강인한가?
- RQ3탐색과 이용을 분리함으로써 내재 보상 기반 강화학습에서의 학습 불안정성을 줄일 수 있는가?
- RQ4DeRL은 내재 보상 기준보다 더 적은 환경 상호작용으로도 유사한 성능을 달성할 수 있는가?
- RQ5DeRL은 다양한 온-폴리시 및 오프-폴리시 강화학습 알고리즘에 대해 얼마나 잘 일반화되는가?
주요 결과
- DeRL은 희소 보상 환경에서 내재 동기 기반 기준과 동일하거나 더 높은 평가 수익을 달성한다.
- DeRL는 내재 보상 기준보다 훨씬 적은 환경 상호작용으로 최적 성능에 수렴한다.
- DeRL는 광범위한 내재 보상 감쇠율 및 스케일링 요소에서 강인한 성능을 보여준다.
- 분리된 접근법은 비정적 내재 보상으로 인한 학습 불안정성을 감소시킨다.
- DeRL은 내재 보상 스케줄링에 대한 하이퍼파rameter 선택에 관계없이 강력한 성능을 유지한다.
- 이 방법은 온-폴리시 및 오프-폴리시 강화학습 알고리즘 모두에 적용되었을 때 효과적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.