[논문 리뷰] Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents
본 논문은 신기성 탐색(novelty-search)과 질 다양성(quality-diversity) 탐구를 진화 전략(ES)과 결합하여 딥 강화학습의 탐색을 개선하고, ES의 확장성을 유지하면서 기만적이거나 희박한 보상 과제에서 ES를 능가하는 NS-ES, NSR-ES, NSRA-ES를 제시한다.
Evolution strategies (ES) are a family of black-box optimization algorithms able to train deep neural networks roughly as well as Q-learning and policy gradient methods on challenging deep reinforcement learning (RL) problems, but are much faster (e.g. hours vs. days) because they parallelize better. However, many RL problems require directed exploration because they have reward functions that are sparse or deceptive (i.e. contain local optima), and it is unknown how to encourage such exploration with ES. Here we show that algorithms that have been invented to promote directed exploration in small-scale evolved neural networks via populations of exploring agents, specifically novelty search (NS) and quality diversity (QD) algorithms, can be hybridized with ES to improve its performance on sparse or deceptive deep RL tasks, while retaining scalability. Our experiments confirm that the resultant new algorithms, NS-ES and two QD algorithms, NSR-ES and NSRA-ES, avoid local optima encountered by ES to achieve higher performance on Atari and simulated robots learning to walk around a deceptive trap. This paper thus introduces a family of fast, scalable algorithms for reinforcement learning that are capable of directed exploration. It also adds this new family of exploration algorithms to the RL toolbox and raises the interesting possibility that analogous algorithms with multiple simultaneous paths of exploration might also combine well with existing RL algorithms outside ES.
연구 동기 및 목표
- 희박하거나 기만적인 보상을 갖는 딥 강화학습에서 지시된 탐색의 필요성을 동기부여한다.
- 신기성 탐색(NS)과 질 다양성(QD)을 진화 전략(ES)과 통합하는 방법을 소개한다.
- 대규모 개체군 기반 탐색을 가능하게 하는 NS-ES, NSR-ES, NSRA-ES를 개발한다.
- Atari 및 시뮬레이션 로보틱스 등 고차원 과제에서 제안된 방법을 평가하여 ES 대비 성능 향상을 보인다.
제안 방법
- ES를 네트워크 매개변수의 개체군 분포에 대한 기울기 상승으로 표현한다.
- 아카이브된 행동의 기대 신기성 최대화를 위한 NS-ES를 도입한다.
- 서열 정규화 평균화를 통한 보상 신호를 결합하여 NSR-ES로 확장한다.
- NS와 보상 간의 적응 가중치 w를 사용해 탐색과 활용의 균형을 맞추는 NSRA-ES를 개발한다.
- 신기성에 따라 확률적으로 선택된 M 개의 메타-개체군을 업데이트에 사용한다.
- 대규모 DNN에 적합한 알고리즘적 세부사항과 병렬화 가능한 구현을 제공한다.
실험 결과
연구 질문
- RQ1신기성 탐색(NS) 및 QD가 희박/기만적 RL 과제에서 ES의 성능을 희생하지 않으면서 개선할 수 있는가?
- RQ2NS-ES, NSR-ES, NSRA-ES가 고차원 영역에서 표준 ES를 가두는 국소 최적화를 피하는가?
- RQ3NSRA-ES의 보완적 조합으로 신기성과 보상의 적응 가중치가 다양한 환경에서 견고한 성능을 제공하는가?
주요 결과
- NS-ES 및 두 가지 QD-ES 변형(NSR-ES, NSRA-ES)이 ES를 가두는 국소 최적화를 피하고 Atari 및 시뮬레이션 보행 과제에서 더 높은 성능을 달성한다.
- NS-ES는 보상 신호를 무시하는 일부 설정에서 신기성만으로 인간형 보행 문제를 해결할 수 있다.
- NSR-ES는 보상을 도입하면서도 신기성의 이점을 유지하여 NS-ES보다 학습 속도를 높이고, NSRA-ES는 신기성과 보상을 적응적으로 가중해 전반적으로 가장 좋은 성능을 자주 보여준다.
- Atari 실험에서 NS-ES와 특히 NSRA-ES가 여러 게임에서 ES를 능가하고 중간 보상에서 DQN과 A3C+와 같은 전통적 탐색 방법과도 경쟁하거나 우수한 성능을 보인다.
- NSRA-ES는 탐색 압력을 적응적으로 조정하여 강건성을 보이며 평가된 대부분의 게임에서 ES보다 더 높은 중앙 보상을 달성한다( NSRA-ES 대 ES: 8/12, NSR-ES 대 ES: 9/12 ).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.