QUICK REVIEW

[논문 리뷰] Maximum a Posteriori Policy Optimisation

Abbas Abdolmaleki, Jost Tobias Springenberg|arXiv (Cornell University)|2018. 06. 14.

Reinforcement Learning in Robotics참고 문헌 28인용 수 167

한 줄 요약

MPO는 상대 엔트로피 목표에 대한 좌표 상승에 기초한 오프 정책 강화 학습 알고리즘을 도입하여 EM 유사 E-단계(샘플 재가중) 및 M-단계(감독적 MAP 업데이트)를 통해 데이터 효율적이고 강건한 정책 최적화를 달성한다.

ABSTRACT

We introduce a new algorithm for reinforcement learning called Maximum aposteriori Policy Optimisation (MPO) based on coordinate ascent on a relative entropy objective. We show that several existing methods can directly be related to our derivation. We develop two off-policy algorithms and demonstrate that they are competitive with the state-of-the-art in deep reinforcement learning. In particular, for continuous control, our method outperforms existing methods with respect to sample efficiency, premature convergence and robustness to hyperparameter settings while achieving similar or better final performance.

연구 동기 및 목표

연속 제어에 대한 심층 RL의 샘플 비효율성과 불안정성을 동기 부여하고 해결한다.
데이터 효율성과 온 정책 방법의 안정성을 결합한 오프 정책 알고리즘을 개발한다.
trajectory 재가중(E-단계)과 정책 업데이트(M-단계)를 분리하는 EM 유사 프레임워크를 활용한다.
MPO를 기존 RL 접근법과 연결하고 하이퍼파라미터에 대한 강건성을 시연한다.

제안 방법

정책 최적성에 대한 하한 ELBO를 갖는 변분 추정으로 RL을 형식화한다.
고정된 정책에 대해 q(a|s)를 최적화하는 E-단계와 q 가중치를 가진 감독적 MAP 업데이트를 통한 정책 매개변수 업데이트를 교대하는 EM 유사 좌표 상승을 사용한다.
parametric 또는 비모수적 변분 분포 q(a|s) 중 하나로 E-단계를 구현한다; 비모수적일 때 q(a|s) ∝ π(a|s,θ) exp(Qθ(s,a)/η) 의 닫힌 형을 도출한다.
최적화의 안정화를 위해 E-단계에 강한 KL 제약을 도입하거나 동등하게 온도 기반 정규화 매개변수 α를 사용한다.
M-단계에서 이전 정책에 비해 KL 제약을 가진 가중 최대 사후 업데이트를 수행하여 일반화를 개선한다.
Retrace를 사용한 안정적인 오프 정책 Q-함수 평가 및 Q-네트를 위한 부트스트랩 타깃을 사용한다.

실험 결과

연구 질문

RQ1MPO가 연속 제어에서 높은 데이터 효율성과 하이퍼파라미터에 대한 강건성을 유지하는가?
RQ2오프 정책 EM 스타일 최적화 프레임워크가 TRPO/PPO, DDPG 등 최첨단 방법과 데이터 샘플 효율성 및 안정성에서 대등하거나 우월한가?
RQ3높은 차원의 과제(예: 56 자유도 인간형 로봇)에서 MPO는 오프 정책 학습 조건에서 어떻게 수행하는가?
RQ4q(a|s)의 비모수적 대 parametric 변분 분포가 성능과 안정성에 미치는 영향은 무엇인가?

주요 결과

MPO는 광범위한 연속 제어 과제에서 강한 데이터 효율성과 강건한 학습을 달성한다.
MPO는 고차원 제어 문제에서 샘플 효율성, 조기 수렴, 하이퍼파라미터 강건성 면에서 최첨단 방법을 능가한다.
오프 정책 EM 스타일 접근은 정책 업데이트를 위한 Q-함수의 그래디언트를 필요로 하지 않으면서도 안정성을 제공한다.
E-단계에서 강한 KL 제약을 사용하고 M-단계에서 KL 제약을 사용하면 안정성과 일반화를 향상시킨다.
비모수적 q(a|s) 최적화는 샘플과 Q-값을 활용해 행동 재가중치를 주는 닫힌 형 솔루션을 제공한다.
실험에서 MPO는 모든 작업을 비교적 적은 데이터(종종 1000개의 궤적 미만)로 해결하는 것을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.