[논문 리뷰] Evolution-Guided Policy Gradient in Reinforcement Learning
ERL은 Evolutionary Algorithms와 Deep RL을 혼합하여 다양한 경험과 그래디언트 기반 학습을 제공하고, DRL이나 EA만으로는 얻기 어려운 더 높은 샘플 효율성과 연속 제어 작업에서 더 나은 성능을 달성한다.
Deep Reinforcement Learning (DRL) algorithms have been successfully applied to a range of challenging control tasks. However, these methods typically suffer from three core difficulties: temporal credit assignment with sparse rewards, lack of effective exploration, and brittle convergence properties that are extremely sensitive to hyperparameters. Collectively, these challenges severely limit the applicability of these approaches to real-world problems. Evolutionary Algorithms (EAs), a class of black box optimization techniques inspired by natural evolution, are well suited to address each of these three challenges. However, EAs typically suffer from high sample complexity and struggle to solve problems that require optimization of a large number of parameters. In this paper, we introduce Evolutionary Reinforcement Learning (ERL), a hybrid algorithm that leverages the population of an EA to provide diversified data to train an RL agent, and reinserts the RL agent into the EA population periodically to inject gradient information into the EA. ERL inherits EA's ability of temporal credit assignment with a fitness metric, effective exploration with a diverse set of policies, and stability of a population-based approach and complements it with off-policy DRL's ability to leverage gradients for higher sample efficiency and faster learning. Experiments in a range of challenging continuous control benchmarks demonstrate that ERL significantly outperforms prior DRL and EA methods.
연구 동기 및 목표
- 강화학습에서 희소 보상과 긴 시간 지평선을 다루는 것.
- 강화학습 에이전트를 위한 다양한 경험 생성을 위해 진화적 인구 다양성 활용.
- 진화 루프에 그래디언트 기반 학습을 주입하고 다시 동기화하여 견고성을 향상.
- 인구 기반 접근법을 통해 안정성을 유지하면서 샘플 효율성 향상.
제안 방법
- 대상 신경망을 가진 배우 네트워크의 인구를 유지하고, 대상 네트워크를 가진 별도 RL 배우-비판(DDPG)을 둔다.
- 에피소드 전체의 적합도(fitness)를 사용하여 배우를 선택하고 진화를 통해 교차 및 돌연변이로 다음 세대를 형성한다.
- 인구의 모든 경험을 공유 재생 버퍼에 저장하고 비판기 및 RL 배우를 경사하강으로 학습시킨다.
- 주기적으로 최적 RL 배우를 진화 인구에 동기화하여 진화를 유도한다(라마르크 전이).
- 액션 공간에서의 탐험을 위해 Ornstein-Uhlenbeck 노이즈를 사용하여, 인구의 파라미터 공간 탐색을 보완한다.
- 재생 버퍼 재사용과 주기적 동기화에 초점을 맞춘 DDPG 기반 ERL의 자세한 알고리즘과 하이퍼파라미터를 제공합니다.
실험 결과
연구 질문
- RQ1ERL이 표준 DRL(DDPG, PPO) 및 EA보다 연속 제어 작업에서 더 뛰어난가?
- RQ2선택 연산자와 인구 기반 다양성이 ERL의 성능에 얼마나 중요한가?
- RQ3RL 배우를 다시 진화 생물 집단에 동기화하는 것이 학습 안정성과 샘플 효율성에 어떤 영향을 미치는가?
- RQ4ERL이 순수 그래디언트 방법이 어려움을 겪는 희소하거나 기만적 보상 환경에서 극복할 수 있는가?
주요 결과
| 환경 | 엘리트 | 선정된 | 폐기된 |
|---|---|---|---|
| Half-Cheetah | 83.8±9.3% | 14.3±9.1% | 2.3±2.5% |
| Swimmer | 4.0±2.8% | 20.3±18.1% | 76.0±20.4% |
| Reacher | 68.3±9.9% | 19.7±6.9% | 9.0±6.9% |
| Ant | 66.7±1.7% | 15.0±1.4% | 18.0±0.8% |
| Hopper | 28.7±8.5% | 33.7±4.1% | 37.7±4.5% |
| Walker-2d | 38.5±1.5% | 39.0±1.9% | 22.5±0.5% |
- ERL은 여섯 가지 Mujoco 연속 제어 작업에서 이전 DRL 및 EA 방법보다 상당히 우수하게 성능을 보입니다.
- DDPG가 일반적으로 실패하는 Ant 벤치마크에서 ERL이 학습하며, 일반적으로 EA보다 우수하지만 Swimmer에서는 비슷합니다.
- 선택 연산자를 제거하면 성능이 급격히 저하되어 robust 학습 유지를 위한 중요성을 강조합니다.
- RL 배우를 인구에 동기화하는 것은 건설적인 지도를 제공하고 안정성을 향상시키며, ERL은 평균적으로 DDPG보다 월(壁-clock) 시간 only 약 3% 더 소요합니다.
- ERL은 공유 재생 버퍼를 활용해 경험에서 정보를 최대한 추출하여 샘플 효율성을 높입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.