QUICK REVIEW

[논문 리뷰] Trust Region Policy Optimization

John Schulman, Sergey Levine|arXiv (Cornell University)|2015. 02. 19.

Reinforcement Learning in Robotics참고 문헌 32인용 수 3,125

한 줄 요약

TRPO는 신뢰 영역(KL 발산)을 통해 정책 업데이트를 제약하여 보장된 단조 개선을 갖는 실용적 정책 최적화 알고리즘을 제시하고, 신경망과 같은 큰 비선형 정책에 대한 확장 가능한 학습을 가능하게 한다. 원시 픽셀로부터 locomotion 작업과 Atari 게임에서 좋은 성능을 보인다.

ABSTRACT

We describe an iterative procedure for optimizing policies, with guaranteed monotonic improvement. By making several approximations to the theoretically-justified procedure, we develop a practical algorithm, called Trust Region Policy Optimization (TRPO). This algorithm is similar to natural policy gradient methods and is effective for optimizing large nonlinear policies such as neural networks. Our experiments demonstrate its robust performance on a wide variety of tasks: learning simulated robotic swimming, hopping, and walking gaits; and playing Atari games using images of the screen as input. Despite its approximations that deviate from the theory, TRPO tends to give monotonic improvement, with little tuning of hyperparameters.

연구 동기 및 목표

안정적인 정책 최적화를 동기부여하여 단조 개선을 보장한다.
이론적 대리목표에서 KL 기반 신뢰 영역으로 실제 알고리즘(TRPO)을 개발한다.
시뮬레이션 및 비전 작업에서 신경망과 같은 크고 차원 높은 정책 파라미터화를 학습 가능하도록 한다.

제안 방법

실제 반환 개선을 상한하는 대리 목표 L_pi_old(pi)를 KL 제약을 통해 상한으로 설정한다.
평균 KL 발산 bound 내에서 L_pi_old를 최대화하는 제약 최적화를 해결하여 신뢰 영역 업데이트를 제안한다.
단일 경로 및 Vine 샘플링 방식을 도입하여 대리 목표와 KL 제약을 유한 샘플로 추정한다.
해석적 피셔 정보 행렬 기반 근사를 사용하여 업데이트 방향을 효율적으로 계산한다.
공액 기울기와 선 탐색을 이용한 실용적 최적화 루프로 정책 파라미터를 업데이트한다.
TRPO를 자연 정책 그래디언트 및 다른 선행 방법과 연결하되 패널티 대신 고정된 KL 기반 제약을 사용한다.

실험 결과

연구 질문

RQ1KL 기반 신뢰 영역이 일반적인 확률 정책의 정책 성능에서 단조 개선을 보장할 수 있는가?
RQ2고차원 정책에 대해 유한 샘플로 대리 목표와 KL 제약을 신뢰성 있게 추정할 수 있는가?
RQ3단일 경로와 Vine 샘플링 방식이 편향, 분산 및 계산 비용 간에 실용적 트레이드오프를 제공하는가?
RQ4KL 제약을 강제하는 것이 다양한 작업에서 고정 페널티 방식의 접근보다 더 크고 강건한 정책 업데이트를 가능하게 하는가?
RQ5TRPO가 이미지 입력으로부터의 신경망 정책과 같은 복잡하고 고차원적인 문제에 대해 확장 가능한 학습을 제공하는가?

주요 결과

방법	Breakout	Enduro	Pong	Q*bert	Seaquest	S. Invaders
TRPO - 단일 경로	1425.2	10.8	534.6	20.9	1973.5	1908.6	568.4
TRPO - Vine	859.5	34.2	430.8	20.9	7732.5	788.4	450.2
Human (Mnih et al., 2013)	7456	31.0	368	-3.0	18900	28010	3690
Deep Q Learning (Mnih et al., 2013)	4092	168.0	470	20.0	1952	1705	581
UCC-I (Guo et al., 2014)	5702	380	741	21	20025	2995	692
Random	354	1.2	0	-20.4	157	110	179

TRPO는 다양한 작업에서 실용적으로 단조로운 정책 개선을 달성하며 하이퍼파라미터 조정이 적다.
단일 경로 및 Vine TRPO 변형이 도전적인 locomotion 작업(swimmer, hopper, walker)을 해결하고 픽셀에서 Atari 게임에서도 잘 작동한다.
제한된 KL 기반 업데이트가 큰 문제에서 더 견고하며 고정 페널티 자연 그래디언트 방법보다 종종 우수하다.
CEM 및 CMA와 같은 그래디언트 프리 방법은 샘플 복잡성으로 인해 고차 파라미터 작업에서 성능이 떨어진다.
average KL 제약을 사용하는 TRPO는 컨볼루션 네트워크를 이용한 Atari에서 경쟁력 있는 성과를 보이며 수만 개의 파라미터에서도 확장 가능한 학습을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.