[논문 리뷰] Latent Space Policies for Hierarchical Reinforcement Learning
이 논문은 잠재 변수, 가역 정책 계층을 가진 계층적 심층 강화학습을 제시하고, 최대 엔트로피 목적을 사용해 학습하여 상위 계층이 잠재 공간을 통해 하위 계층을 제어하고 연속 제어 과제에서 성능을 향상시키는 것을 가능하게 한다.
We address the problem of learning hierarchical deep neural network policies for reinforcement learning. In contrast to methods that explicitly restrict or cripple lower layers of a hierarchy to force them to use higher-level modulating signals, each layer in our framework is trained to directly solve the task, but acquires a range of diverse strategies via a maximum entropy reinforcement learning objective. Each layer is also augmented with latent random variables, which are sampled from a prior distribution during the training of that layer. The maximum entropy objective causes these latent variables to be incorporated into the layer's policy, and the higher level layer can directly control the behavior of the lower layer through this latent space. Furthermore, by constraining the mapping from latent variables to actions to be invertible, higher layers retain full expressivity: neither the higher layers nor the lower layers are constrained in their behavior. Our experimental evaluation demonstrates that we can improve on the performance of single-layer policies on standard benchmark tasks simply by adding additional layers, and that our method can solve more complex sparse-reward tasks by learning higher-level policies on top of high-entropy skills optimized for simple low-level objectives.
연구 동기 및 목표
- 하위 계층을 무력화하지 않으면서 계층적 RL을 동기화하고 각 계층이 직접 과제를 해결하는 동시에 다양한 전략을 제공하도록 한다.
- 상위 계층이 가역 매핑을 통해 하위 계층에 영향을 주는 잠재 변수 정책 프레임워크를 개발한다.
- 최대 엔트로피 RL과 정상화 흐름 기반의 잠재 공간에서 행동으로의 변환을 사용한 안정적이고 확장 가능한 학습을 달성한다.
- 레이어를 추가하면 표준 벤치마크에서 성능이 향상되고 희소 보상 과제를 해결할 수 있음을 입증한다.
제안 방법
- RL을 최대 엔트로피 추론으로 공식화하고 잠재 변수를 보강하여 계층적 정책을 만든다.
- 상태에 조건화된 latent 변수를 행동으로 매핑하기 위해 invertible neural network transforms (real-valued non-volume preserving transforms) 를 사용한다.
- 아래쪽에서부터 각 층이 자신의 잠재 변수를 학습하는 정책을 배우면서 상위 층의 행동 공간으로 잠재 공간을 제공하도록 층을 상향식으로 학습한다.
- 각 학습된 변환을 환경에 포함시켜 다이나믹스를 재정의하고 이후 층이 더 높은 수준의 행동에서 작동하도록 한다.
- 학습을 단순화하기 위해 하위 층에 shaping 보상을 선택적으로 도입하되 엔트로피 기반 탐사는 유지한다.
- 강건하고 샘플 효율적인 학습을 위해 Soft Actor-Critic (SAC) 로 구현한다.
실험 결과
연구 질문
- RQ1잠재 변수, 가역 정책 계층이 연속 제어 과제에서 학습 효율성과 최종 성능을 향상시킬 수 있는가?
- RQ2잠재 공간 정책의 아래로부터의 층별 학습이 끝에서 학습하는 엔드투엔드 방식보다 계층적 RL 결과를 더 좋게 하는가?
- RQ3희소 보상 설정에서 하위 층에 shaping 보상을 제공하는 것이 고수준 정책의 학습에 어떤 영향을 미치는가?
- RQ4잠재 공간을 통해 상위 정책이 하위 행동을 얼마나 많이 제어할 수 있는가?
- RQ5이 접근법이 깊은 계층 구조와 고차원 제어 문제에 확장 가능한가?
주요 결과
- 잠재 공간 계층 정책이 고차원 작업을 포함한 여러 연속 제어 벤치마크에서 최첨단 성능을 달성한다.
- 하향식, 층별 방식으로 학습된 이중층 정책이 단일층 정책보다 우수하고 엔드투엔드의 더 깊은 정책과 비교해도 양호한 성능을 보인다.
- 레이어를 추가하면 Ant 및 Humanoid 같은 도전적인 과제에서 상당한 성능 향상을 이룬다.
- 하위 레이어의 shaping 보상은 희소 보상 문제를 해결하는 데 도움이 되면서도 가역 변환으로 인해 상위 레벨이 여전히 제어할 수 있다.
- 이 방법은 여러 환경에서 샘플 효율성 개선과 안정적인 학습를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.