[논문 리뷰] Relative Entropy Regularized Policy Iteration
오프폴리시 액터-크리틱 RL 방법은 Q-값 추정, KL 규제가 있는 로컬 비모수 정책 개선, 그리고 해석 분리된 가우시안 업데이트를 통한 파라메트릭 정책 적합을 교대로 수행하며, 여러 연속 제어 벤치마크에서 강한 결과를 달성한다.
We present an off-policy actor-critic algorithm for Reinforcement Learning (RL) that combines ideas from gradient-free optimization via stochastic search with learned action-value function. The result is a simple procedure consisting of three steps: i) policy evaluation by estimating a parametric action-value function; ii) policy improvement via the estimation of a local non-parametric policy; and iii) generalization by fitting a parametric policy. Each step can be implemented in different ways, giving rise to several algorithm variants. Our algorithm draws on connections to existing literature on black-box optimization and 'RL as an inference' and it can be seen either as an extension of the Maximum a Posteriori Policy Optimisation algorithm (MPO) [Abdolmaleki et al., 2018a], or as an extension of Trust Region Covariance Matrix Adaptation Evolutionary Strategy (CMA-ES) [Abdolmaleki et al., 2017b; Hansen et al., 1997] to a policy iteration scheme. Our comparison on 31 continuous control tasks from parkour suite [Heess et al., 2017], DeepMind control suite [Tassa et al., 2018] and OpenAI Gym [Brockman et al., 2016] with diverse properties, limited amount of compute and a single set of hyperparameters, demonstrate the effectiveness of our method and the state of art results. Videos, summarizing results, can be found at goo.gl/HtvJKR .
연구 동기 및 목표
- 연속 제어를 위한 데이터 효율적 오프폴리시 액터-크리틱 프레임워크를 개발한다.
- Q-function 추정과 로컬 비모수 정책 개선 단계를 결합한다.
- 안정적인 학습을 보장하기 위한 KL 기반 규제의 파라메트릭 정책 적합 단계를 도입한다.
- 가우시안 정책에 대해 평균과 공분산의 분리된 업데이트를 가능하게 하여 조기 수렴을 방지한다.
- 단일 하이퍼파라미터 세트로 다양한 벤치마크에서의 강건성을 시연한다.
제안 방법
- TD 학습과 타깃 네트워크로 파라메트릭 Q-함수를 학습하여 정책 평가를 수행한다.
- Q값을 이용해 재가중된 샘플로 로컬 비모수 행동 분포를 구성하여 정책 개선을 수행한다.
- KL 정규화로 가중치를 사용한 최대우도 추정으로 파라메트릭 정책으로 다시 투영한다(softmax 기반 가중치).
- 온도 파라미터를 볼록 쌍대(P)로 해결하여 지수적 또는 순위 기반 스킴으로 가중치를 선택할 수 있다.
- 편향 없는 평균 및 공분산 업데이트를 통해 초기 수렴 방지를 위한 개선된 가우시안 정책을 적합한다.
- 정책 업데이트를 제어하기 위한 평균 및 공분산에 대한 KL 제약으로 정규화를 적용; 좌우 좌우 증가 최적화를 수행한다.
실험 결과
연구 질문
- RQ1KL-정규화 정책 개선이 오프폴리시 액터-크리틱 설정에서 안정성 및 성능에 어떤 영향을 미치는가?
- RQ2가우시안 정책의 평균/공분산 분리 업데이트가 학습 안정성과 조기 수렴 방지에 도움을 주는가?
- RQ3단일 하이퍼파라미터 세트를 사용하여 다양한 연속 제어 과제(제어 모음, 파쿠르, OpenAI Gym)에서 이 프레임워크의 성능은 어떠한가?
- RQ4다양한 Q-function 추정 전략(TD0 대 Retrace)이 복잡한 작업에서 최종 성능에 어떤 영향을 주는가?
- RQ5이 방법이 고차원 작업에서 DDPG, SVG, SAC 등 기존 베이스라인과 비교하여 어떤 성능 차이를 보이는가?
주요 결과
- 단일 하이퍼파라미터 세트를 사용하여 31개의 연속 제어 작업에서 강력한 성능을 달성한다.
- 가우시안 정책의 평균/공분산 분리 업데이트가 조기 수렴 방지와 안정성 및 성능 향상에 기여한다.
- 평균 및 공분산에 대한 KL 제약은 작업 전반에서 안정적인 학습에 중요하며, 제약이 없으면 학습이 불안정해질 수 있다.
- 도전적인 파쿠르 작업에서 Retrace 기반 정책 평가가 TD0에 비해 학습 속도를 높인다.
- OpenAI Gym 작업에서 본 방법은 비슷한 샘플 효율로 SAC보다 더 높은 급진적 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.