[논문 리뷰] GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep Reinforcement Learning
GRIMGEP는 시각적 딥 강화학습에서 학습 진전(PLP)과 새로운 목표 기반 탐색을 결합한 새로운 프레임워크를 제안한다. 클러스터링을 통해 목표 샘플링을 이끌며, 높은 학습 진전을 보이는 영역을 우선적으로 선택하고, 해당 클러스터 내에서 신선도 탐색을 적용함으로써, 잡음이 많고 학습이 불가능한 목표(예: 깜빡이는 TV)로부터의 산만함을 줄이고, 복잡한 3D 이미지 기반 환경에서 샘플 효율성과 최종 성능을 크게 향상시킨다.
Designing agents, capable of learning autonomously a wide range of skills is critical in order to increase the scope of reinforcement learning. It will both increase the diversity of learned skills and reduce the burden of manually designing reward functions for each skill. Self-supervised agents, setting their own goals, and trying to maximize the diversity of those goals have shown great promise towards this end. However, a currently known limitation of agents trying to maximize the diversity of sampled goals is that they tend to get attracted to noise or more generally to parts of the environments that cannot be controlled (distractors). When agents have access to predefined goal features or expert knowledge, absolute Learning Progress (ALP) provides a way to distinguish between regions that can be controlled and those that cannot. However, those methods often fall short when the agents are only provided with raw sensory inputs such as images. In this work we extend those concepts to unsupervised image-based goal exploration. We propose a framework that allows agents to autonomously identify and ignore noisy distracting regions while searching for novelty in the learnable regions to both improve overall performance and avoid catastrophic forgetting. Our framework can be combined with any state-of-the-art novelty seeking goal exploration approaches. We construct a rich 3D image based environment with distractors. Experiments on this environment show that agents using our framework successfully identify interesting regions of the environment, resulting in drastically improved performances. The source code is available at https://sites.google.com/view/grimgep.
연구 동기 및 목표
- 행동 유도 방해 요소(예: 깜빡이는 TV)가 존재하는 복잡한 이미지 기반 환경에서 목표 탐색 문제를 해결하기 위해.
- 고차원 관측치로 인해 직접 적용이 어려운 시각적 DRL에 학습 진전(PLP) 기반 커리큘럼 학습을 확장하기 위해.
- PLP 기반 고차원 커리큘럼을 통해 새로운 목표 기반 탐색 알고리즘의 강건성과 샘플 효율성을 향상시키기 위해.
- PLP 기반 영역 선택과 새로운 목표 기반 목표 샘플링을 조합할 경우, 단독으로 사용되는 방법보다 뛰어난 성능을 달성할 수 있음을 입증하기 위해.
제안 방법
- GRIMGEP는 시각적 관측 공간을 잠재 표현 기반으로 클러스터링한 VAE를 사용하여 영역으로 분할한다.
- 각 클러스터 내에서 학습 진전(LP)을 추정하여 에이전트가 현재 가장 많이 학습 중인 영역를 식별한다.
- 높은 학습 진전을 보이는 클러스터를 선택하여 목표 샘플링을 수행함으로써, 학습 가능하고 정보가 풍부한 작업에 집중한다.
- 선택된 클러스터 내부에서는 새로운 목표 기반 탐색(Skewfit 또는 CountBased)을 적용하여 유의미한 영역에서 다양성을 확보한다.
- 클러스터링 VAE의 온라인 학습과 GMM 기반 클러스터 선택을 구현하며, 하이퍼파라미터는 AIC 기반으로 튜닝한다.
- 기존 IMGEP와 원활하게 통합되며, 환경의 관련성 있고 학습 가능한 영역으로의 탐색을 이끄는 사전 조건으로 작용한다.
실험 결과
연구 질문
- RQ1행동 유도 방해 요소(예: 깜빡이는 TV)가 존재할 때 현재의 새로운 목표 기반 목표 탐색 알고리즘(Skewfit, CountBased)은 어떻게 행동하는가?
- RQ2학습 진전(PLP) 기반 커리큘럼이 이미지 기반 DRL에서 새로운 목표 기반 탐색의 강건성과 성능을 향상시킬 수 있는가?
- RQ3PLP에 의해 이끌리는 클러스터 선택 메커니즘이 균일한 클러스터 샘플링과 비교할 때 탐색 효율성과 최종 성능 측면에서 어떻게 다른가?
- RQ4PLP와 새로운 목표 탐색을 통합할 경우, 학습이 불가능하고 방해가 되는 목표로의 유혹을 얼마나 줄일 수 있는가?
주요 결과
- GRIMGEP는 방해 요소가 많은 TV 방에서 샘플링되는 목표 비율을 크게 감소시켜, 의미 있는 기술을 학습할 수 있는 오브제кт 방으로의 초점을 이동시켰다.
- GRIM-Skewfit와 GRIM-CountBased는 TV로 인해 대부분 산만해지는 대비로, 상당히 높은 최종 성능(예: 오브제кт 방 목표에서 80% 성공률)을 달성했다.
- GRIMGEP 내부에서 OnlineRIG(균일 샘플링)를 사용할 경우 성능은 향상되었지만 여전히 최적은 아니었으며, 이는 단지 PLP 가이드라인만으로는 충분하지 않다는 것을 보여주었다.
- 절단 실험을 통해 PLP 기반 클러스터 샘플링이 균일한 클러스터 샘플링보다 뛰어난 성능을 보였으며, 후자는 훨씬 높은 성공률과 더 일관된 오브제кт 방 탐색을 달성했다.
- 에이전트가 전문 지식이나 조밀한 보상 설계 없이도 환경의 관련성 있고 학습 가능한 영역를 성공적으로 탐지하고 우선순위를 정하는 데 성공했다.
- GRIMGEP는 학습 진전이 가장 높은 영역에 집중하면서, 학습이 불가능한 작업을 피하고 복잡하고 적응적인 커리큘럼을 자동으로 구축할 수 있도록 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.