[논문 리뷰] FeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks (FuN)는 느린 타임스케일에서 방향성 잠재 목표를 설정하는 매니저와 매 틱마다 원시 행동을 실행하는 워커의 2단계 계층을 도입하고, 전이-정책 그라디언트와 내재적 보상을 통해 장기 공정 할당과 기억력을 개선한다.
We introduce FeUdal Networks (FuNs): a novel architecture for hierarchical reinforcement learning. Our approach is inspired by the feudal reinforcement learning proposal of Dayan and Hinton, and gains power and efficacy by decoupling end-to-end learning across multiple levels -- allowing it to utilise different resolutions of time. Our framework employs a Manager module and a Worker module. The Manager operates at a lower temporal resolution and sets abstract goals which are conveyed to and enacted by the Worker. The Worker generates primitive actions at every tick of the environment. The decoupled structure of FuN conveys several benefits -- in addition to facilitating very long timescale credit assignment it also encourages the emergence of sub-policies associated with different goals set by the Manager. These properties allow FuN to dramatically outperform a strong baseline agent on tasks that involve long-term credit assignment or memorisation. We demonstrate the performance of our proposed system on a range of tasks from the ATARI suite and also from a 3D DeepMind Lab environment.
연구 동기 및 목표
- 강화학습에서 장기적 신용 할당 및 기억 문제를 동기 부여하고 해결한다.
- 수준과 시간 규모 간 학습을 분리하는 계층적이면서 미분 가능한 아키텍처를 제안한다.
- 매니저 목표에 의미를 부여하는 새로운 전이 정책 그라디언트 업데이트를 도입한다.
- 방향성 목표와 워커의 내재적 동기를 통해 재사용 가능한 하위 정책의 등장를 촉진한다.
- 강력한 기저선에 비해 ATARI 및 3D DeepMind Lab 과제에서 실험적 이점을 보여준다.
제안 방법
- 목표를 설정하는 매니저와 그 목표에 따라 행동하는 워커가 있는 두 수준 FuN 아키텍처.
- 매니저는 더 낮은 시간 해상도에서 작동하며 긴 기간 기억을 유지하기 위해 확장된 LSTM(dilated LSTM)을 사용한다.
- 워커는 매니저 목표를 따르도록 내재적 보상을 받고 어드밴티지 액터-크리틱 업데이트를 사용한다.
- 목표는 저차원 공간에 임베드되며 곱셈적 상호작용으로 워커 정책을 조절한다.
- 매니저 학습은 잠재 상태 전이 간 코사인 유사도에 기초한 근사 전이 정책 그라디언트를 따른다.
- 워커에 대한 내재적 보상은 진행 방향으로의 목표 방향을 고무하는 이동 평균 코사인 유사도이다.
- 전이 모델 가정은 매니저의 그라디언트 업데이트를 정당화하기 위해 von Mises-Fisher 방향 분포를 사용한다.
실험 결과
연구 질문
- RQ1계층적이고 미분 가능한 FuN 아키텍처가 강화학습 과제에서 장기 신용 할당과 기억력을 개선할 수 있는가?
- RQ2방향성 잠재 목표와 분리된 학습이 시간 규모를 넘나들며 해석 가능한 하위 정책으로 이어지는가?
- RQ3전이-정책 그라디언트가 매니저가 외재적 보상을 최적화하는 데 의미 있는 학습 신호를 제공하는가?
- RQ4워커가 매니저 목표를 효과적으로 구현하는 데 있어 내재적 동기가 필수적인가?
- RQ5FuN은 Atari 및 DeepMind Lab 과제에서 강력한 LSTM 기저선 및 엔드투엔드 옵션 기반 접근법과 어떻게 비교되는가?
주요 결과
- FuN은 Montezuma’s Revenge를 포함한 Atari 게임과 DeepMind Lab 과제에서 장기 신용 할당 및 기억력 향상을 크게 보여준다.
- 매니저는 워커를 내재적 보상을 통해 안내하는 의미 있는 방향성 하위 목표를 학습한다.
- FuN은 여러 Atari 게임 및 Memory 과제에서 LSTM 기저선보다 우수하며, 특히 긴 BPTT 언롤이 사용될 때 그렇다.
- 매니저의 확장된 LSTM(dLSTM)은 수백 시간 간격의 그래디언트를 가능하게 하며 장기 계획을 지원한다.
- 에탈레이션 연구는 전이 정책 그라디언트, 방향성 목표, 내재적 동기가 성능에 결정적임을 보여준다.
- FuN의 매니저-워커 분리는 구현 간 전이 정책의 가능성과 행동 반복의 이전을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.