Skip to main content
QUICK REVIEW

[논문 리뷰] Fast Policy Learning through Imitation and Reinforcement

Ching-An Cheng, Xinyan Yan|arXiv (Cornell University)|2018. 05. 26.
Reinforcement Learning in Robotics참고 문헌 31인용 수 44
한 줄 요약

로키는 몇 무작위 단계에서의 모방 학습을 정책 기울기 강화 학습과 교차시켜, 더 빠른 수렴과 비최적 전문가를 능가하는 능력을 제공합니다.

ABSTRACT

Imitation learning (IL) consists of a set of tools that leverage expert demonstrations to quickly learn policies. However, if the expert is suboptimal, IL can yield policies with inferior performance compared to reinforcement learning (RL). In this paper, we aim to provide an algorithm that combines the best aspects of RL and IL. We accomplish this by formulating several popular RL and IL algorithms in a common mirror descent framework, showing that these algorithms can be viewed as a variation on a single approach. We then propose LOKI, a strategy for policy learning that first performs a small but random number of IL iterations before switching to a policy gradient RL method. We show that if the switching time is properly randomized, LOKI can learn to outperform a suboptimal expert and converge faster than running policy gradient from scratch. Finally, we evaluate the performance of LOKI experimentally in several simulated environments.

연구 동기 및 목표

  • 전문가가 비최적일 때 각자의 한계를 극복하기 위해 모방 학습(IL)과 강화 학습(RL)의 결합을 동기 부여한다.
  • 일관된 미러-디센트 관점에서 RL과 IL을 일차-오라클 변형으로 제시한다.
  • 이론적 보장을 갖춘 단순한 무작위 모방-그다음 RL 알고리즘인 loki를 도입한다.
  • 시뮬레이션 제어 과제에서 loki의 실험적 성능을 보여준다.

제안 방법

  • RL과 IL을 서로 다른 일차 오라클을 가진 미러-디센트 업데이트로 공식화한다.
  • 공통 프레임워크 내에서 정책 기울기 및 모방 기울기 업데이트 규칙을 도출한다.
  • 처음 K 단계의 모방 기반 업데이트를 수행한 다음 강화 기반 업데이트로 전환하는 두 단계 loki 알고리즘을 정의한다.
  • 수렴 특성이 유리해지도록 전환 지점 K를 무작위화한다.
  • 적절한 무작위성 아래에서 loki가 전문가의 직접 정책 기울기에 맞먹을 수 있음을 보이는 이론적 보장을 제시한다.

실험 결과

연구 질문

  • RQ1간단한 무작위화된 IL-그다음-RL 절차가 비최적 전문가를 능가하고 맨 처음부터 순수 RL보다 더 빨리 수렴할 수 있는가?
  • RQ2일관된 미러-디센트 관점이 RL과 IL 알고리즘을 하나의 접근법의 변형으로 설명하는가?
  • RQ3로키가 전문가 기반 정책 최적화와 같아지거나 이를 능가하는 이론적 보장과 실제 조건은 무엇인가?
  • RQ4모방 단계 지속 시간을 무작위화하는 것이 수렴 및 최종 성능에 어떻게 영향을 미치는가?

주요 결과

  • 로키는 IL 단계에 이어 RL을 활용함으로써 표준 정책 기울기 방법보다 더 빠르게 학습한다.
  • 모방에서 RL로의 전환 시간을 적절히 무작위화하면 전문가로부터 직접 정책 기울기를 실행하는 것과 유사한 성능을 얻는다.
  • 로키는 여러 시뮬레이션 환경에서 비최적 전문가를 능가하고 처음부터 RL만으로 수렴하는 것보다 더 빨리 수렴할 수 있다.
  • 이 논문은 RL과 IL이 사용된 일차 오라클에 의해서만 차이가 나는 일치된 미러-디센트 프레임워크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.