[논문 리뷰] Evolution Strategies as a Scalable Alternative to Reinforcement Learning
이 논문은 Evolution Strategies(ES)가 MuJoCo와 Atari 과제에서 신경망 정책을 경쟁력 있게 학습시킬 수 있으며, 수천 개의 CPU로 거의 선형 확장이 가능하고, 프레임 건너뛰기와 긴 시야에 대한 강건함을 제공하지만 역전파나 가치 함수 근사 없이도 작동한다는 것을 보여줍니다.
We explore the use of Evolution Strategies (ES), a class of black box optimization algorithms, as an alternative to popular MDP-based RL techniques such as Q-learning and Policy Gradients. Experiments on MuJoCo and Atari show that ES is a viable solution strategy that scales extremely well with the number of CPUs available: By using a novel communication strategy based on common random numbers, our ES implementation only needs to communicate scalars, making it possible to scale to over a thousand parallel workers. This allows us to solve 3D humanoid walking in 10 minutes and obtain competitive results on most Atari games after one hour of training. In addition, we highlight several advantages of ES as a black box optimization technique: it is invariant to action frequency and delayed rewards, tolerant of extremely long horizons, and does not need temporal discounting or value function approximation.
연구 동기 및 목표
- ES가 Q-learning 및 정책 그래디언트와 같은 전통적 RL 방법의 실행 가능한 대안이 될 수 있는지 조사한다.
- 분산 하드웨어에서 ES의 확장성 및 통신 효율성을 평가한다.
- MuJoCo와 Atari 과제에서 최첨단 RL 기준선과 비교한 ES의 데이터 효율성 및 성능을 평가한다.
- 네트워크 매개변수화 및 액션/매개변수 스무딩이 ES 성능에 미치는 영향을 탐구한다.
제안 방법
- 정책 매개변수의 가우시안 교란을 이용한 자연적 진화 전략으로 ES를 공식화한다.
- ψ에 대한 그래디언트를 사용하여 Eθ∼pψ[F(θ)]를 최대화하는 점수 함수 추정기를 활용한다(θ를 평균 매개변수로 간주).
- 공통 난수로 교란을 동기화하는 병렬식의 저대역폭 ES(알고리즘 2)를 구현한다.
- 분산 분산 감소 기법(대조 샘플링, 적합도 형태화) 및 가중치 감소를 적용한다.
- 가상 배치 정규화와 행동 이산화가 탐색 및 성능에 미치는 영향을 조사한다.
실험 결과
연구 질문
- RQ1ES가 MuJoCo, Atari와 같은 도전적 제어 과제에서 그래디언트 기반 RL 방법과 대등하거나 능가할 수 있는가?
- RQ2병렬 작업자 수와 분산 하드웨어가 확장성에 얼마나 잘 작용하는가?
- RQ3네트워크 매개변수화 및 스무딩이 ES의 효과성과 탐색에 어떤 역할을 하는가?
- RQ4ES가 할인 없이 또는 가치 함수 근사 없이 지연, 프레임 건너뛰기 및 긴 시야 과제에 대해 강건한가?
주요 결과
- 가상 배치 정규화 및 다른 재매개변화와 함께 ES가 MuJoCo 및 Atari 과제 전반에서 강력한 성능을 보인다.
- 1,440명의 작업자와 함께 ES가 MuJoCo 3D Humanoid 과제를 10분도 안 되는 시간에 해결하여 선형 확장성을 보여준다.
- ES는 많은 게임에서 최종 Atari 성능이 A3C와 비슷했고, 데이터는 3–10배 더 많이 사용되었지만 전체 계산 시간은 비슷했다.
- ES는 정책 그래디언트 방식(TRPO 등)보다 탐색이 더 넓게 나타나며 MuJoCo 휴머니드에서 다양한 보행 등으로 탐색을 촉진했다.
- 고정 하이퍼파라미터가 Atari와 MuJoCo 환경 전반에서 작동하여 ES의 강건성과 조정의 필요성을 감소시켰다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.