[논문 리뷰] RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated Environments
RIDE는 학습된 상태 표현에서 영향력 있는 변화를 야기하는 행동에 보상을 주는 고유 보상을 도입하여 절차적으로 생성된 희소 보상 환경에서 탐험을 개선합니다. MiniGrid 작업에서 이전의 고유 보상을 능가하고 다양한 미로에 일반화합니다.
Exploration in sparse reward environments remains one of the key challenges of model-free reinforcement learning. Instead of solely relying on extrinsic rewards provided by the environment, many state-of-the-art methods use intrinsic rewards to encourage exploration. However, we show that existing methods fall short in procedurally-generated environments where an agent is unlikely to visit a state more than once. We propose a novel type of intrinsic reward which encourages the agent to take actions that lead to significant changes in its learned state representation. We evaluate our method on multiple challenging procedurally-generated tasks in MiniGrid, as well as on tasks with high-dimensional observations used in prior work. Our experiments demonstrate that this approach is more sample efficient than existing exploration methods, particularly for procedurally-generated MiniGrid environments. Furthermore, we analyze the learned behavior as well as the intrinsic reward received by our agent. In contrast to previous approaches, our intrinsic reward does not diminish during the course of training and it rewards the agent substantially more for interacting with objects that it can control.
연구 동기 및 목표
- 희소 보상, 절차적으로 생성된 환경에서 외재적 보상이 드문 상황에서 탐험을 동기화합니다.
- 단순한 새로움이 아닌 영향 있는 상태 변화를 목표로 하는 고유 보상을 개발합니다.
- 보상 정보를 환경의 제어 가능한 측면에 grounding하기 위해 순방향 및 역방향 동역학을 통해 상태 표현을 학습합니다.
- 다양한 MiniGrid 작업과 고차원 단일 환경에서 RIDE를 표준 및 고유 탐험 기반 비교대상과 함께 평가합니다.
제안 방법
- Pathak et al. (2017)과 같이 forward 및 inverse dynamics 모델을 사용하여 잠재 상태 표현 phi(s)를 학습합니다.
- R_IDE = ||phi(s_{t+1}) - phi(s_t)||_2를 sqrt(N_ep(s_{t+1}))로 나눈 고유 보상으로, 영향력 있는 전이를 보상하고 사소한 앞뒤 움직임을 억제합니다.
- RL 목표 L_RL과 함께 손실 L_fw 및 L_inv로 forward 및 inverse 모델을 학습하되 RL 업데이트가 표현 네트워크에 영향을 주지 않도록 합니다.
- 추론 grounding(episodic state visitation counts)을 사용하여 고유 보상을 할인하고(내재적 기반) 보상이 제어 가능한 환경 변화에 집중되도록 합니다.
- 내재적 보상을 바탕으로 정책 학습을 수행하되 임베딩 네트워크를 정책 업데이트와 분리하여 보상 남용을 방지합니다.
실험 결과
연구 질문
- RQ1학습된 잠재 공간에서의 영향에 기반한 고유 보상이 절차적으로 생성된 희소 보상 RL 작업에서 탐험을 향상시킬 수 있습니까?
- RQ2RIDE가 MiniGrid 및 고차원 단일 작업에서 샘플 효율성 및 작업 해결 가능성 측면에서 카운트 기반 및 호기심 기반 고유 보상과 어떻게 비교됩니까?
- RQ3학습된 표현이 에이전트가 제어할 수 있는 객체와 상호작용하는 행동에 보상을 집중시키고 보상 신호가 학습 전반에 걸쳐 지속됩니까?
- RQ4RIDE는 이전의 고유 동기 부여 방법들보다 절차적으로 생성된 환경에 더 잘 일반화합니까?
주요 결과
- RIDE는 도전적인 MiniGrid 작업에서 기본 탐색 방법(Count, RND, ICM) 및 표준 RL(IMPALA)을 능가하며, 다른 방법들이 실패하는 더 어려운 환경을 해결합니다.
- RIDE의 고유 보상은 100M 프레임에서도 역동적으로 남아 있으며, 일부 호기심 기반 또는 카운트 기반 보상과 달리 감소하지 않습니다.
- RIDE는 개방 문 등 제어 가능한 객체와 상호작용하는 행동을 일반적인 이동보다 더 강조하며, 내재적 보상 분석에서 이를 확인했습니다.
- 절차적으로 생성된 미로에서의 학습은 단일 미로보다 RIDE를 사용했을 때 더 넓은 탐험으로 이어져 환경 인스턴스 간 일반화가 더 잘됩니다.
- 단일 VizDoom 및 Mario 벤치마크에서 RIDE는 기본 방법과 비슷하거나 더 나은 성능을 보이는 반면, 외재 보상과 결합된 호기심 기반 방법은 학습을 방해할 수 있습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.