QUICK REVIEW

[논문 리뷰] Relative Entropy Regularized Policy Iteration

Abbas Abdolmaleki, Jost Tobias Springenberg|arXiv (Cornell University)|2018. 12. 05.

Reinforcement Learning in Robotics참고 문헌 35인용 수 45

한 줄 요약

오프폴리시 액터-크리틱 RL 방법은 Q-값 추정, KL 규제가 있는 로컬 비모수 정책 개선, 그리고 해석 분리된 가우시안 업데이트를 통한 파라메트릭 정책 적합을 교대로 수행하며, 여러 연속 제어 벤치마크에서 강한 결과를 달성한다.

ABSTRACT

We present an off-policy actor-critic algorithm for Reinforcement Learning (RL) that combines ideas from gradient-free optimization via stochastic search with learned action-value function. The result is a simple procedure consisting of three steps: i) policy evaluation by estimating a parametric action-value function; ii) policy improvement via the estimation of a local non-parametric policy; and iii) generalization by fitting a parametric policy. Each step can be implemented in different ways, giving rise to several algorithm variants. Our algorithm draws on connections to existing literature on black-box optimization and 'RL as an inference' and it can be seen either as an extension of the Maximum a Posteriori Policy Optimisation algorithm (MPO) [Abdolmaleki et al., 2018a], or as an extension of Trust Region Covariance Matrix Adaptation Evolutionary Strategy (CMA-ES) [Abdolmaleki et al., 2017b; Hansen et al., 1997] to a policy iteration scheme. Our comparison on 31 continuous control tasks from parkour suite [Heess et al., 2017], DeepMind control suite [Tassa et al., 2018] and OpenAI Gym [Brockman et al., 2016] with diverse properties, limited amount of compute and a single set of hyperparameters, demonstrate the effectiveness of our method and the state of art results. Videos, summarizing results, can be found at goo.gl/HtvJKR .

연구 동기 및 목표

연속 제어를 위한 데이터 효율적 오프폴리시 액터-크리틱 프레임워크를 개발한다.
Q-function 추정과 로컬 비모수 정책 개선 단계를 결합한다.
안정적인 학습을 보장하기 위한 KL 기반 규제의 파라메트릭 정책 적합 단계를 도입한다.
가우시안 정책에 대해 평균과 공분산의 분리된 업데이트를 가능하게 하여 조기 수렴을 방지한다.
단일 하이퍼파라미터 세트로 다양한 벤치마크에서의 강건성을 시연한다.

제안 방법

TD 학습과 타깃 네트워크로 파라메트릭 Q-함수를 학습하여 정책 평가를 수행한다.
Q값을 이용해 재가중된 샘플로 로컬 비모수 행동 분포를 구성하여 정책 개선을 수행한다.
KL 정규화로 가중치를 사용한 최대우도 추정으로 파라메트릭 정책으로 다시 투영한다(softmax 기반 가중치).
온도 파라미터를 볼록 쌍대(P)로 해결하여 지수적 또는 순위 기반 스킴으로 가중치를 선택할 수 있다.
편향 없는 평균 및 공분산 업데이트를 통해 초기 수렴 방지를 위한 개선된 가우시안 정책을 적합한다.
정책 업데이트를 제어하기 위한 평균 및 공분산에 대한 KL 제약으로 정규화를 적용; 좌우 좌우 증가 최적화를 수행한다.

실험 결과

연구 질문

RQ1KL-정규화 정책 개선이 오프폴리시 액터-크리틱 설정에서 안정성 및 성능에 어떤 영향을 미치는가?
RQ2가우시안 정책의 평균/공분산 분리 업데이트가 학습 안정성과 조기 수렴 방지에 도움을 주는가?
RQ3단일 하이퍼파라미터 세트를 사용하여 다양한 연속 제어 과제(제어 모음, 파쿠르, OpenAI Gym)에서 이 프레임워크의 성능은 어떠한가?
RQ4다양한 Q-function 추정 전략(TD0 대 Retrace)이 복잡한 작업에서 최종 성능에 어떤 영향을 주는가?
RQ5이 방법이 고차원 작업에서 DDPG, SVG, SAC 등 기존 베이스라인과 비교하여 어떤 성능 차이를 보이는가?

주요 결과

단일 하이퍼파라미터 세트를 사용하여 31개의 연속 제어 작업에서 강력한 성능을 달성한다.
가우시안 정책의 평균/공분산 분리 업데이트가 조기 수렴 방지와 안정성 및 성능 향상에 기여한다.
평균 및 공분산에 대한 KL 제약은 작업 전반에서 안정적인 학습에 중요하며, 제약이 없으면 학습이 불안정해질 수 있다.
도전적인 파쿠르 작업에서 Retrace 기반 정책 평가가 TD0에 비해 학습 속도를 높인다.
OpenAI Gym 작업에서 본 방법은 비슷한 샘플 효율로 SAC보다 더 높은 급진적 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.