[논문 리뷰] Stochastic Neural Networks for Hierarchical Reinforcement Learning
이 논문은 Stochastic Neural Networks에 정보 이론적 규제가 적용된 프레임워크로 다양한 기술을 사전 학습한 다음, 이 기술들 위에 고수준 정책을 학습시켜 희소 보상으로 다운스트림 작업을 해결한다.
Deep reinforcement learning has achieved many impressive results in recent years. However, tasks with sparse rewards or long horizons continue to pose significant challenges. To tackle these important problems, we propose a general framework that first learns useful skills in a pre-training environment, and then leverages the acquired skills for learning faster in downstream tasks. Our approach brings together some of the strengths of intrinsic motivation and hierarchical methods: the learning of useful skill is guided by a single proxy reward, the design of which requires very minimal domain knowledge about the downstream tasks. Then a high-level policy is trained on top of these skills, providing a significant improvement of the exploration and allowing to tackle sparse rewards in the downstream tasks. To efficiently pre-train a large span of skills, we use Stochastic Neural Networks combined with an information-theoretic regularizer. Our experiments show that this combination is effective in learning a wide span of interpretable skills in a sample-efficient way, and can significantly boost the learning performance uniformly across a wide range of downstream tasks.
연구 동기 및 목표
- 희소 보상과 긴 시점을 갖는 과제에서의 학습을 동기부여하고 해결한다.
- 최소한의 작업 특정 가이던스로도 유용한 기술의 넓은 스펙트럼을 발견하는 사전 학습 단계 제안.
- 다중 모드 정책을 표현하고 기술 다양성을 가능하게 하기 위해 Stochastic Neural Networks (SNNs) 도입.
- 독특하고 해석 가능한 기술을 촉진하기 위해 정보 이론적 정규화를 도입.
- 학습된 기술 위에 고수준 정책을 학습시켜 다운스트림 학습을 가속화.
제안 방법
- 스킬 발견을 안내하기 위한 프록시 보상을 갖춘 사전 학습 환경 사용.
- 잠재 변수를 입력으로 포함하는 Stochastic Neural Networks를 사용하여 결정적 피드포워드 네트에 입력으로 제공되는 정책을 모델링합니다.
- 잠재 변수를 양선형(bilinear) 상호작용으로 통합하여 다중 모달성과 기술 다양성을 강화한다.
- 관련 상태 구성요소에 대한 잠재 코드의 정보성을 최대화하기 위해 상호 정보 기반 보너스를 추가한다.
- 학습된 저수준 스킬을 고정하고 고수준 매니저를 학습시켜 고정된 시간 horizon에서 스킬을 선택하도록 하여 계층적 제어를 가능하게 한다.
- 사전 학습과 다운스트림 작업 모두에서 TRPO로 정책을 최적화한다.
실험 결과
연구 질문
- RQ1MI 보너스가 있는 SNN이 크고 해석 가능한 스팬의 스킬을 신뢰성 있게 생성할 수 있는가?
- RQ2프록시 보상으로의 사전 학습이 다운스트림의 희소 보상 작업에서 탐색 및 샘플 효율성을 향상시키는가?
- RQ3학습된 스킬을 사용하는 계층형 정책이 기저선과 비교하여 미로 탐색 및 수집 과제에서 학습을 가속화하는가?
- RQ4잠재 변수의 이차(bilinear) 통합이 기술 다양성과 다운스트림 성능을 어느 정도 향상시키는가?
주요 결과
- SNNs with bilinear integration and MI regularization yield a broad set of interpretable skills.
- Hierarchical use of learned skills improves exploration in sparse-reward environments compared with non-hierarchical baselines.
- Pre-training with proxy rewards plus MI bonus accelerates learning in mazes and food gathering tasks across multiple runs.
- The approach reduces sample complexity by sharing low-level policies while learning high-level task-specific managers.
- Experiments show stronger performance and reduced variance in some downstream tasks when using MI-regularized SNNs.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.