[논문 리뷰] Never Give Up: Learning Directed Exploration Strategies
이 논문은 NGU를 소개합니다. NGU는 에피소드 기록과 평생 노빌티를 이용해 방향성 탐색 정책의 가족을 학습하는 강화학습 에이전트이며, UVFA로 학습되어 Pitfall!에서 Demonstrations 없이도 무보상 보상을 포함한 Atari의 강력한 성과를 달성합니다.
We propose a reinforcement learning agent to solve hard exploration games by learning a range of directed exploratory policies. We construct an episodic memory-based intrinsic reward using k-nearest neighbors over the agent's recent experience to train the directed exploratory policies, thereby encouraging the agent to repeatedly revisit all states in its environment. A self-supervised inverse dynamics model is used to train the embeddings of the nearest neighbour lookup, biasing the novelty signal towards what the agent can control. We employ the framework of Universal Value Function Approximators (UVFA) to simultaneously learn many directed exploration policies with the same neural network, with different trade-offs between exploration and exploitation. By using the same neural network for different degrees of exploration/exploitation, transfer is demonstrated from predominantly exploratory policies yielding effective exploitative policies. The proposed method can be incorporated to run with modern distributed RL agents that collect large amounts of experience from many actors running in parallel on separate environment instances. Our method doubles the performance of the base agent in all hard exploration in the Atari-57 suite while maintaining a very high score across the remaining games, obtaining a median human normalised score of 1344.0%. Notably, the proposed method is the first algorithm to achieve non-zero rewards (with a mean score of 8,400) in the game of Pitfall! without using demonstrations or hand-crafted features.
연구 동기 및 목표
- 딥 RL에서 제어 가능한 탐색 전략을 학습해 견고한 탐색을 유도한다.
- 에피소드 기반 노빌티와 라이프-롱 노빌티를 결합한 내부 보상을 개발해 탐색을 지속시키다.
- UVFA를 통해 여러 탐색-착취 트레이드오프에 걸쳐 하나의 신경망을 공유한다.
- 대규모 액터 풀을 갖춘 분산 RL 설정에서 확장성을 입증한다.
제안 방법
- 제어 가능한 상태의 에피소드 기억에서의 k-최근접 이웃을 통해 에피소드 노빌티와 Random Network Distillation에 의한 라이프-롱 노빌티를 결합한 내부 보상 r^i_t를 계산한다.
- 환경의 제어 가능한 측면에 노빌티를 편향시키기 위해 자기지도 역동학(self-supervised inverse dynamics) 목표를 사용해 f(x)라는 제어 가능한 상태 임베딩을 학습한다.
- 다양한 탐색 가중치 β를 가진 정책 군을 학습하기 위해 UVFA Q(x,a,β)를 사용해 순수 탐색에서 착취까지의 스펙트럼을 가능하게 한다.
- 변환된 Retrace 이중 Q-학습 손실과 우선 재생을 사용하는 분산 오프폴리시 접근(R2D2)으로 학습한다.
- 각 순전파마다 β 조건화, 이전 액션, 이전 보상, 그리고 β-특정 신호를 에이전트 입력에 포함시킨다.
실험 결과
연구 질문
- RQ1하나의 신경망이 다양한 탐색-착취 트레이드오프를 갖는 다중 방향 탐색 정책을 지원할 수 있는가?
- RQ2에피소드 기반과 라이프-롱 노빌티를 결합하면 에피소드와 환경 전반에 걸쳐 지속되는 견고한 탐색이 생성되는가?
- RQ3이런 탐색 중심 정책이 Pitfall! 같은 어려운 탐색 게임에서 시演 없이도 성능을 개선하는가?
- RQ4많은 액터가 병렬로 경험을 수집하는 분산 RL 설정에서 NGU의 확장성은 어떠한가?
주요 결과
| 알고리즘 | Gravitar | MR | Pitfall! | PrivateEye | Solaris | Venture | Human |
|---|---|---|---|---|---|---|---|
| R2D2 | - | - | - | - | - | - | - |
| R2D2+RND | 15.6k ± 0.6k | 10.4k ± 1.2k | -0.5 ± 0.3 | 19.5k ± 3.5k | 4.3k ± 0.6k | 2.7k ± 0.0k | - |
| R2D2(Retrace) | 13.3k ± 0.6k | 2.3k ± 0.4k | -3.5 ± 1.2 | 32.5k ± 4.7k | 6.0k ± 1.1k | 2.0k ± 0.0k | - |
| NGU(N=1)-RND | 12.4k ± 0.8k | 3.0k ± 0.0k | 15.2k ± 9.4k | 40.6k ± 0.0k | 5.7k ± 1.8k | 46.4 ± 37.9 | - |
| NGU(N=1) | 11.0k ± 0.7k | 8.7k ± 1.2k | 9.4k ± 2.2k | 60.6k ± 16.3k | 5.9k ± 1.6k | 876.3 ± 114.5 | - |
| NGU(N=32) | 14.1k ± 0.5k | 10.4k ± 1.6k | 8.4k ± 4.5k | 100.0k ± 0.4k | 4.9k ± 0.3k | 1.7k ± 0.1k | - |
- NGU는 Hard exploration 게임에서 강력한 Atari Baseline보다 더 높은 성능을 달성하며 Atari-57에서 중앙값 인간 표준화 점수 1344.0%를 기록한다.
- NGU는 Pitfall!에서 시演이나 수작업 피처 없이도 0이 아닌 보상을 가능하게 한다(평균 점수 약 8400).
- 혼합 수 N을 증가시키고 라이프-롱 노빌티에 RND를 사용하면 Hard exploration 게임의 성능이 향상된다.
- 이 방법은 다수의 밀도 보상 Atari 게임에서 경쟁력 있거나 우수한 결과를 낳지만 특정 게임에서 NGU(N>1)의 설정은 최상의 Baseline보다 저조할 수 있다.
- Atari-57 전체에서 NGU의 중앙값 점수는 1354.4%(Nature DQN 95%, R2D2 1920.6% 등과 비교)이며, 대부분의 게임에서 여전히 강력한 성능을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.