Skip to main content
QUICK REVIEW

[논문 리뷰] V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control

Hao Song, Abbas Abdolmaleki|arXiv (Cornell University)|2019. 09. 26.
Reinforcement Learning in Robotics참고 문헌 33인용 수 39
한 줄 요약

V-MPO는 정책 반복을 수행하기 위해 학습된 상태 가치 함수를 사용하는 온-정책 MPO의 적응으로, 엔트로피 정규화나 인구 기반 튜닝 없이 이산 및 연속 제어에서 강력한 결과를 달성합니다.

ABSTRACT

Some of the most successful applications of deep reinforcement learning to challenging domains in discrete and continuous control have used policy gradient methods in the on-policy setting. However, policy gradients can suffer from large variance that may limit performance, and in practice require carefully tuned entropy regularization to prevent policy collapse. As an alternative to policy gradient algorithms, we introduce V-MPO, an on-policy adaptation of Maximum a Posteriori Policy Optimization (MPO) that performs policy iteration based on a learned state-value function. We show that V-MPO surpasses previously reported scores for both the Atari-57 and DMLab-30 benchmark suites in the multi-task setting, and does so reliably without importance weighting, entropy regularization, or population-based tuning of hyperparameters. On individual DMLab and Atari levels, the proposed algorithm can achieve scores that are substantially higher than has previously been reported. V-MPO is also applicable to problems with high-dimensional, continuous action spaces, which we demonstrate in the context of learning to control simulated humanoids with 22 degrees of freedom from full state observations and 56 degrees of freedom from pixel observations, as well as example OpenAI Gym tasks where V-MPO achieves substantially higher asymptotic scores than previously reported.

연구 동기 및 목표

  • 온-policy 강화학습에서 정책 기울기 방법과 관련된 분산과 불안정성을 감소시키려는 동기를 제시한다.
  • 학습된 상태가치 함수를 활용한 정책 반복을 가능케 하는 온-정책 MPO 기반 알고리즘을 개발한다.
  • 추가 정규화나 인구 기반 튜닝 없이 이산 및 연속 제어 벤치마크에서 강력한 성능을 보인다.

제안 방법

  • V-MPO를 제안한다. 이는 최대 사후 정책 최적화의 온-policy 적응이다.
  • 학습된 상태가치 함수에 의해 안내되는 정책 반복을 사용한다.
  • 안정적인 학습을 유지하면서 엔트로피 정규화와 중요도 가중치를 피한다.
  • 고차원 작업을 포함하여 이산 및 연속 행동 공간에서 이 방법이 작동함을 보인다.

실험 결과

연구 질문

  • RQ1이전의 온-policy 방법들과 비교해 이산 및 연속 제어 벤치마크에서 V-MPO의 성능은 어떤가?
  • RQ2V-MPO가 엔트로피 정규화, 중요도 가중치 또는 인구 기반 하이퍼파라미터 조정 없이도 강력한 성능을 달성할 수 있는가?
  • RQ3고차원 행동 공간 및 픽셀 기반 관찰에 얼마나 잘 확장되는가?
  • RQ4멀티태스크 및 단일 태스크 설정에서 Atari-57, DMLab-30, 및 OpenAI Gym 과제에서의 경험적 이득은 무엇인가?

주요 결과

  • 멀티태스크 설정에서 V-MPO가 Atari-57 및 DMLab-30에서 이전에 보고된 점수를 상회한다.
  • 이 방법은 중요도 가중치, 엔트로피 정규화 또는 인구 기반 하이퍼파라미터 조정 없이 이러한 결과를 달성한다.
  • 개별 DMLab 및 Atari 레벨에서 점수는 이전에 보고된 것보다 상당히 높다.
  • V-MPO는 전체 상태 관찰 및 픽셀 관찰로 인간형 로봇의 예시를 통해 고차원 연속 행동 공간에 적용 가능함을 시연했다.
  • OpenAI Gym 과제에서 수렴적 점수가 이전 보고치보다 상당히 높다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.