[논문 리뷰] Planning with Goal-Conditioned Policies
LEAP는 모델-프리 목표 조건 정책과 학습된 잠재 상태 공간에서의 계획을 결합하여 이미지와 같은 고차원 관찰로부터 긴 시점 과제를 해결한다.
Planning methods can solve temporally extended sequential decision making problems by composing simple behaviors. However, planning requires suitable abstractions for the states and transitions, which typically need to be designed by hand. In contrast, model-free reinforcement learning (RL) can acquire behaviors from low-level inputs directly, but often struggles with temporally extended tasks. Can we utilize reinforcement learning to automatically form the abstractions needed for planning, thus obtaining the best of both approaches? We show that goal-conditioned policies learned with RL can be incorporated into planning, so that a planner can focus on which states to reach, rather than how those states are reached. However, with complex state observations such as images, not all inputs represent valid states. We therefore also propose using a latent variable model to compactly represent the set of valid states for the planner, so that the policies provide an abstraction of actions, and the latent variable model provides an abstraction of states. We compare our method with planning-based and model-free methods and find that our method significantly outperforms prior work when evaluated on image-based robot navigation and manipulation tasks that require non-greedy, multi-staged behavior.
연구 동기 및 목표
- 자세한 환경 모델링 없이 시간적 구성성을 얻기 위해 모델-프리 RL과 계획의 결합을 고무한다.
- 목표 조건 가치 함수를 암시적 모델로 사용한 부분 목표 계획을 제안한다.
- 부분 목표를 유효한 상태의 매니폴드 안에 유지하기 위해 잠재 상태 표현을 학습한다.
- 목표 도달 정책으로 잠재 하위목표를 계획하는 것이 시각 기반 과제에서 이전의 모델-프리 및 모델 기반 방법을 능가함을 보인다.
제안 방법
- Temporal Difference Models(TDMs)으로 학습된 목표 조건 정책을 단기 지평 컨트롤러로 사용한다.
- Variational Autoencoder(VAE)로 학습된 저차원 잠재 공간에서 중간 부분 목표를 계획한다.
- 부분 목표에 대해 V(s,g,t)로 도달 가능성의 현실성 벡터를 정의하고 그 노름을 최소화하여 부분 목표를 선택한다.
- 타당한 상태의 매니폴드에 남아 있도록 잠재 가능성(latent likelihood)이 낮은 경우 페널티를 주면서 잠재 공간의 하위 목표를 최적화한다.
- VAE 디코더를 사용해 잠재 하위 목표를 실제 상태 목표로 디코딩하고 목표 조건 정책으로 실행한다.
- 원시 픽셀 대신 잠재 공간에서 계획함으로써 고차원 관찰을 처리하고 RL을 위해 VAE 인코더를 재사용한다.
실험 결과
연구 질문
- RQ1목표 조건 정책이 긴 시점 작업에서 계획의 추상화로 작용할 수 있는가?
- RQ2목표가 고차원(예: 이미지)일 때 잠재 표현에 대한 계획이 실행 가능성과 성능을 향상시키는가?
- RQ3이미지 기반 내비게이션 및 조작 작업에서 LEAP가 순수 모델-프리 및 순수 모델 기반 방법과 어떻게 비교되는가?
- RQ4사전 학습된 VAE 인코더를 재사용하는 것이 학습 효율성과 성능에 어떤 영향을 미치는가?
주요 결과
- LEAP는 시각 기반 내비게이션 및 조작 과제에서 이전의 모델-프리 및 모델 기반 방법보다 우수하다.
- TDM 기반 정책으로 세 개의 잠재 하위 목표에 대해 계획하는 것이 짧은 시점 목표만을 사용하는 것보다 긴 시점 목표를 더 빠르게 달성한다.
- 잠재 하위 목표를 최적화하면 실제로 도달 가능한 상태에 해당하는 의미 있는 하위 목표가 만들어지며 원시 이미지 픽셀에서의 최적화와 달리 그렇다.
- VAE 인코더를 재사용하면 처음부터 RL 네트워크를 학습하는 것보다 학습 속도가 빨라진다.
- 아블레이션 실험은 잠재 공간에서의 계획이 이미지 공간에서의 직접 계획보다 현저히 더 효과적임을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.