QUICK REVIEW

[논문 리뷰] Dual Policy Iteration

Wen Sun, Geoffrey J. Gordon|arXiv (Cornell University)|2018. 05. 28.

Reinforcement Learning in Robotics인용 수 25

한 줄 요약

이 논문은 반응형 정책(예: 딥 네ural 네트워크)을 비반응형 모델 기반 전문가 정책(예: 국소 최적 제어를 통해)의 모방을 통해 번갈아가며 최적화하는 새로운 근사 정책 반복 프레임워크인 듀얼 정책 반복(Dual Policy Iteration, DPI)을 소개한다. 이 방법은 국소 역학 모델과 체계적인 모델 기반 탐색을 활용하여 표준 정책 기반 강화학습 및 액터-크리틱 기준보다 훨씬 높은 샘플 효율성을 달성하며, 이론적 수렴 보장과 연속 제어 과제에서의 경험적 검증을 통해 검증된다.

ABSTRACT

Recently, a novel class of Approximate Policy Iteration (API) algorithms have demonstrated impressive practical performance (e.g., ExIt from [2], AlphaGo-Zero from [27]). This new family of algorithms maintains, and alternately optimizes, two policies: a fast, reactive policy (e.g., a deep neural network) deployed at test time, and a slow, non-reactive policy (e.g., Tree Search), that can plan multiple steps ahead. The reactive policy is updated under supervision from the non-reactive policy, while the non-reactive policy is improved with guidance from the reactive policy. In this work we study this Dual Policy Iteration (DPI) strategy in an alternating optimization framework and provide a convergence analysis that extends existing API theory. We also develop a special instance of this framework which reduces the update of non-reactive policies to model-based optimal control using learned local models, and provides a theoretically sound way of unifying model-free and model-based RL approaches with unknown dynamics. We demonstrate the efficacy of our approach on various continuous control Markov Decision Processes.

연구 동기 및 목표

반응형 정책와 비반응형 정책의 번갈아가는 최적화를 통해 모델-자유 및 모델 기반 강화학습을 통합하는 일반적인 프레임워크인 듀얼 정책 반복(DPI)을 개발하는 것.
기존의 API 이론을 확장한 수렴 분석을 제공하여, 모델 기반 탐색이 성공할 경우 보수적 정책 반복(CPI)보다 더 큰 반복당 정책 향상이 이루어짐을 보여주는 것.
모델 기반 국소 학습, 국소 최적 제어, 그리고 모방 학습을 통합함으로써 미지의 동역학을 가진 강화학습에서 샘플 효율적인 학습을 가능하게 하는 것.
다양한 환경에서 연속 제어 및 강건한 정책 최적화에 대한 DPI의 유효성을 입증하는 것.
국소 동역학 예측 오차가 정책 향상에 미치는 영향을 분석하여, 국소적으로 정확한 동역학만으로도 효과적인 정책 업데이트가 가능함을 보여주는 것.

제안 방법

프레임워크는 국소 모델 기반 최적 제어(MBOC)를 통해 비반응형 정책을 계산하고, MBOC 정책을 모방함으로써 반응형 정책을 업데이트하는 방식으로 번갈아가며 작동한다.
현재 반응형 정책 하에서의 롤아웃 데이터로부터 국소 역학 모델을 학습하여, MBOC가 지침을 위한 국소 최적 정책을 계산할 수 있도록 한다.
MBOC 정책 하에서의 기대 우월도를 최대화하는 목적 함수에 대해 자연 경량 내림걸음(Natural gradient descent)을 사용하여 반응형 정책를 업데이트한다.
이 방법은 이중 단계 루프를 사용한다: (1) 국소 모델을 피팅하고 MBOC 정책을 계산하고, (2) MBOC 정책의 행동-가치 함수를 사용하여 반응형 정책을 모방 학습 방식으로 업데이트한다.
강건한 정책 최적화를 위해, 이 프레임워크는 여러 훈련 환경에서 계산된 MBOC 정책을 동시에 모방하도록 반응형 정책을 공동 최적화한다.
이론적 분석을 통해 MBOC가 성공할 경우 DPI의 반복당 정책 향상이 CPI를 초월하며, 이 향상은 시간 간격에 따라 제곱적으로 증가함을 보여준다.

실험 결과

연구 질문

RQ1모델 기반 탐색과 정책 모방을 번갈아 사용하는 듀얼 정책 반복 프레임워크는 표준 API 방법보다 더 큰 반복당 정책 향상을 달성할 수 있는가?
RQ2국소로 학습된 동역학 모델의 예측 오차는 DPI 프레임워크에서 정책 향상에 어떤 영향을 미치는가?
RQ3국소 모델 기반 탐색과 모방 학습을 통합하면, 동역학이 알려지지 않은 강화학습에서 더 높은 샘플 효율성을 달성할 수 있는가?
RQ4DPI 프레임워크는 단일 정책이 여러 환경에서 일반화해야 하는 강건한 정책 최적화로 확장될 수 있는가?
RQ5국소 모델 정확도를 가정할 때 DPI 프레임워크의 수렴성과 정책 향상에 대해 어떤 이론적 보장을 제공할 수 있는가?

주요 결과

제안된 DPI 알고리즘은 연속 제어 과제에서 TRPO-GAE와 보수적 정책 반복(CPI)보다 더 빠른 수렴과 뛰어난 샘플 효율성을 달성하며, 더 적은 에피소드로 높은 성능에 도달한다.
강건한 정책 최적화에서 비강건한 변형(단일 환경에서 훈련)은 과적합되어 일반화에 실패하는 반면, DPI 기반 강건한 방법은 세 개의 새로운 테스트 환경에서 잘 일반화된다.
이 방법은 현재 정책의 상태-행동 분포 하에서 국소적으로 정확한 동역학만으로도 의미 있는 정책 향상이 가능함을 보여주며, 전체적으로 부정확한 모델이어도 충분함을 입증한다.
MBOC가 성공할 경우 DPI의 반복당 정책 향상은 국소 기울기 업데이트가 아닌 구조화된 다단계 앞서보기(lookahead)를 사용함으로써 CPI를 초월한다.
이 알고리즘은 특히 보상이 흐린 환경나 고차원 행동 공간을 가진 환경에서 모델 기반 탐색을 통한 체계적 탐색 덕분에 샘플 효율성에서 상당한 향상을 보인다.
경험적 결과는 MBOC와 모방 학습을 통합함으로써 무작위 탐색이나 표준 정책 기반 강화학습 방법보다 더 안정적이고 효과적인 정책 업데이트가 가능함을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.