[논문 리뷰] Dealing with Sparse Rewards in Reinforcement Learning
이 MSc 보고서는 강화학습에서 희소 보상(sparse rewards)으로 학습하는 접근법을 조사하고, 호기심 주도 탐색과 무지도 보조 과제를 결합한 새로운 방법을 제안하며, 비디오 게임 환경 전반에서 평가된다.
Successfully navigating a complex environment to obtain a desired outcome is a difficult task, that up to recently was believed to be capable only by humans. This perception has been broken down over time, especially with the introduction of deep reinforcement learning, which has greatly increased the difficulty of tasks that can be automated. However, for traditional reinforcement learning agents this requires an environment to be able to provide frequent extrinsic rewards, which are not known or accessible for many real-world environments. This project aims to explore and contrast existing reinforcement learning solutions that circumnavigate the difficulties of an environment that provide sparse rewards. Different reinforcement solutions will be implemented over a several video game environments with varying difficulty and varying frequency of rewards, as to properly investigate the applicability of these solutions. This project introduces a novel reinforcement learning solution by combining aspects of two existing state of the art sparse reward solutions, curiosity driven exploration and unsupervised auxiliary tasks.
연구 동기 및 목표
- 희소 외재 보상이 있는 환경에서 강화학습을 동기 부여하고 연구한다.
- 기존의 희소 보상 RL 솔루션을 대조하고 그 적용 가능성을 평가한다.
- 점차 더 어려워지는 비디오 게임 환경에서 희소 보상 RL 방법을 구현하고 평가한다.
- 호기심 주도 탐색과 무지도 보조 과제를 혼합한 새로운 에이전트를 도입한다.
제안 방법
- 기초 RL 개념(MDPs, 가치 함수, 벨만 방정식)과 동적 프로그래밍을 검토한다.
- 모델 자유(RL) 방법(Monte Carlo, TD, Q-learning, 정책 경사)과 희소 보상에서의 한계를 논한다.
- 호기심 주도 탐색, 무지도 보조 과제, 무작위 네트워크 디스틸레이션(RANDN), 회상 경험 재생(Hindsight Experience Replay) 등 최첨단 희소 보상 기술을 설명한다.
- DRL 에이전트(A2C, Sync-DDQN, PPO)와 희소 보상 향상(UNREAL-A2C2, RANDAL, RND, ICM)의 구현을 제시하고 분석한다.
- Baseline과 희소 보상 방법을 비교하기 위해 Classic Control 및 Atari 2600 환경에서 에이전트를 평가한다.
실험 결과
연구 질문
- RQ1다양한 비디오 게임 환경에서 기존의 희소 보상 강화학습 방법이 어떻게 성능을 발휘하는가?
- RQ2호기심 주도 탐색과 무지도 보조 과제를 결합하면 희소 보상 하에서 학습이 개선되는가?
- RQ3제안된 방법이 학습 효율성과 최종 성능 측면에서 기존 기준(A2C, DDQN, PPO)과 어떻게 비교되는가?
- RQ4희소 보상 RL 에이전트의 구현 및 확장에 관한 실용적 고려사항(하드웨어, 소프트웨어 아키텍처, 인코더)은 무엇인가?
주요 결과
- 희소 보상 기법이 다양한 난이도의 비디오 게임 환경에서 적용 가능함을 보여준다.
- 호기심 주도 탐색과 무지도 보조 과제를 통합하면 희소 보상 하에서도 경쟁력 있는 성능을 얻을 수 있음을 보인다.
- 기준선과 UNREAL-A2C2 및 RANDAL과 같은 희소 보상 강화 에이전트 간의 실증적 비교를 제공한다.
- 인코더 네트워크와 하이퍼파라미터를 포함한 확장 가능한 심층 강화학습의 구현 통찰을 자세히 제공한다.
- 희소 보상 방법의 추가 개선과 확장에 대한 후속 기회가 열려 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.