QUICK REVIEW

[논문 리뷰] Recurrent Predictive State Policy Networks

Ahmed Hefny, Zita Marinho|arXiv (Cornell University)|2018. 03. 05.

Reinforcement Learning in Robotics인용 수 1

한 줄 요약

이 논문은 부분 관찰 환경에서 신뢰도 상태를 모델링하기 위해 예측 상태 표현(PSR)을 사용하는 미분 가능한 순환 아키텍처인 반복 예측 상태 정책(RPSP) 네트워크를 제안한다. 보상 기반 정책 기울기와 예측 오차 최소화를 통해 훈련된 반사적 정책과 함께 순환적 PSR 필터를 결합함으로써, RPSP는 OpenAI Gym의 로봇 제어 작업에서 GRU와 유한 메모리 모델보다 뛰어난 성능을 달성한다.

ABSTRACT

We introduce Recurrent Predictive State Policy (RPSP) networks, a recurrent architecture that brings insights from predictive state representations to reinforcement learning in partially observable environments. Predictive state policy networks consist of a recursive filter, which keeps track of a belief about the state of the environment, and a reactive policy that directly maps beliefs to actions, to maximize the cumulative reward. The recursive filter leverages predictive state representations (PSRs) (Rosencrantz and Gordon, 2004; Sun et al., 2016) by modeling predictive state-- a prediction of the distribution of future observations conditioned on history and future actions. This representation gives rise to a rich class of statistically consistent algorithms (Hefny et al., 2018) to initialize the recursive filter. Predictive state serves as an equivalent representation of a belief state. Therefore, the policy component of the RPSP-network can be purely reactive, simplifying training while still allowing optimal behaviour. Moreover, we use the PSR interpretation during training as well, by incorporating prediction error in the loss function. The entire network (recursive filter and reactive policy) is still differentiable and can be trained using gradient based methods. We optimize our policy using a combination of policy gradient based on rewards (Williams, 1992) and gradient descent based on prediction error. We show the efficacy of RPSP-networks under partial observability on a set of robotic control tasks from OpenAI Gym. We empirically show that RPSP-networks perform well compared with memory-preserving networks such as GRUs, as well as finite memory models, being the overall best performing method.

연구 동기 및 목표

기존의 신뢰도 상태를 유지하기 어려운 부분 관찰 환경에서 강화 학습의 과제를 해결하기 위해.
예측 상태 표현(PSR)을 활용하여 효율적이고 통계적으로 일관된 신뢰도 추적을 위한, 미분 가능한 순환 아키텍처를 개발하기 위해.
PSR를 충분한 신뢰도 표현으로 사용하여 순수 반사적 정책을 가능하게 하여, 훈련을 단순화하면서도 최적성을 유지하기 위해.
보상 기반 정책 기울기와 함께 예측 오차를 손실 함수에 통합하여 훈련의 안정성과 성능을 향상시키기 위해.
로봇 제어 작업에서 메모리 유지 네트워크(예: GRU)와 유한 메모리 모델과의 비교를 통해 RPSP의 실증적 평가를 수행하기 위해.

제안 방법

RPSP 네트워크는 PSR 이론을 사용하여 과거 기록과 행동에 조건부인 향후 관측의 분포 예측인 예측 상태를 유지하는 순환 필터를 활용한다.
예측 상태 표현은 이전 연구에서 제안된 통계적으로 일관된 알고리즘(Hefny 등, 2018)을 사용해 초기화되어 신뢰도 추정의 강건성을 확보한다.
정책 구성 요소는 순수하게 반사적인 것으로, 예측 상태를 직접 행동으로 매핑하여 훈련을 단순화하고 엔드 투 엔드의 미분 가능성을 보장한다.
네트워크는 하이브리드 손실을 사용하여 훈련되며, 누적 보상 기반 정책 기울기(Williams, 1992)와 예측 오차 기반 경사 하강법이 결합된다.
전체 아키텍처는 서로 다른 기울기 전파를 통해 예측 상태 필터와 정책의 공동 최적화가 가능하도록 미분 가능하다.
PSR 해석은 모두 일반화와 일관성을 향상시키기 위해 신뢰도 표현과 훈련 모두에서 사용된다.

실험 결과

연구 질문

RQ1예측 상태 표현은 부분 관찰 강화 학습에서 미분 가능한 순환 신뢰도 모델을 구성하는 데 효과적으로 활용될 수 있는가?
RQ2예측 상태 기반의 반사적 정책은 GRU와 같은 메모리 증강 모델과 비교해 유사하거나 더 뛰어난 성능을 달성할 수 있는가?
RQ3훈련 목표에 예측 오차를 통합할 경우, 정책 학습과 신뢰도 정확도에 얼마나 큰 영향을 미치는가?
RQ4부분 관찰 환경에서 로봇 제어 작업에서 RPSP는 유한 메모리 모델과 GRU 기반 에이전트에 비해 어떻게 성능을 발휘하는가?

주요 결과

RPSP 네트워크는 부분 관찰 조건에서 다양한 OpenAI Gym 로봇 제어 작업에서 GRU 기반 메모리 네트워크와 유한 메모리 모델을 능가한다.
손실 함수에 예측 오차를 통합함으로써 예측 상태 표현의 정확도가 향상되어 정책 학습에 기여한다.
PSR 기반 신뢰도 상태 덕분에 순수 반사적 정책 구성 요소가 명시적 메모리 없이 최적의 행동을 달성하며, 이는 훈련과 아키텍처를 단순화한다.
미분 가능한 아키텍처 덕분에 신뢰도 추적과 정책의 효과적인 공동 최적화가 가능해져 안정적이고 높은 성능의 정책을 도출한다.
실증 결과는 RPSP가 테스트된 기준 모델들 중에서 전체적으로 가장 뛰어난 성능을 보이며, 특히 장수명 및 부분 관찰 환경에서 뛰어난 성능을 발휘함을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.