QUICK REVIEW

[논문 리뷰] Relay Policy Learning: Solving Long-Horizon Tasks via Imitation and Reinforcement Learning

Abhishek Gupta, Vikash Kumar|arXiv (Cornell University)|2019. 10. 25.

Reinforcement Learning in Robotics인용 수 116

한 줄 요약

Relay Policy Learning (RPL)은 비구조적 시연으로부터의 모방과 계층적 강화학습을 결합하여 장기 목표 로봇 작업을 해결하고, 그 후 RL을 통한 미세조정을 수행합니다. 이는 릴레이 데이터 재레이레이블링을 사용하여 2단계 수준의 목표-조건 정책을 학습하고, 베이스라인 대비 향상된 성능을 달성합니다.

ABSTRACT

We present relay policy learning, a method for imitation and reinforcement learning that can solve multi-stage, long-horizon robotic tasks. This general and universally-applicable, two-phase approach consists of an imitation learning stage that produces goal-conditioned hierarchical policies, and a reinforcement learning phase that finetunes these policies for task performance. Our method, while not necessarily perfect at imitation learning, is very amenable to further improvement via environment interaction, allowing it to scale to challenging long-horizon tasks. We simplify the long-horizon policy learning problem by using a novel data-relabeling algorithm for learning goal-conditioned hierarchical policies, where the low-level only acts for a fixed number of steps, regardless of the goal achieved. While we rely on demonstration data to bootstrap policy learning, we do not assume access to demonstrations of every specific tasks that is being solved, and instead leverage unstructured and unsegmented demonstrations of semantically meaningful behaviors that are not only less burdensome to provide, but also can greatly facilitate further improvement using reinforcement learning. We demonstrate the effectiveness of our method on a number of multi-stage, long-horizon manipulation tasks in a challenging kitchen simulation environment. Videos are available at https://relay-policy-learning.github.io/

연구 동기 및 목표

다단계의 길고 긴 지평의 로봇 작업을 최소한의 수동 태스크 라벨링으로 해결하도록 동기를 부여한다.
비구조적 시연으로부터 계층적 정책을 부트스트랩하여 후속 RL 미세조정을 용이하게 한다.
고수준 및 저수준 정책 모두에 대해 목표-조건 데이터셋을 생성하기 위해 릴레이 데이터 재라벨링을 도입한다.
간단한 목표-조건 보상 구조를 유지하면서 RL 미세조정을 가능하게 하고 샘플 효율성을 향상시킨다.

제안 방법

고수준 목표 설정자와 저수준 서브목표-조건 정책을 갖는 이중 수준 계층 정책을 제안한다.
고정된 고수준 계획 간격(H)을 사용하여 고수준이 H단계 동안 서브목표를 설정하고 저수준은 매 단계에서 행동한다.
비구조적 시연으로부터 두 수준에 대해 목표-조건 데이터셋을 생성하기 위한 릴레이 데이터 재라벨링을 도입한다(알고리즘 2 및 3).
재레이블링된 데이터에서 감독적 모방 학습으로 고수준 및 저수준 정책을 학습하여 정책을 초기화한다(릴레이 모방 학습, RIL).
목표-조건 자연 정책 그래디언트(NPG)로 정책을 미세조정하면서, 재라벨링 데이터를 활용하기 위해 최대우도 항을 통해 시연을 포함시키는 릴레이 강화 미세조정(RRF)을 수행한다.
다수의 미세조정된 행동을 단일 다중 작업 정책으로 증류하여 일반화를 달성한다.

실험 결과

연구 질문

RQ1비구조적 시연으로부터 계층적 정책을 모방 학습으로 효과적으로 부트스트랩할 수 있는가?
RQ2릴레이 모방 학습된 정책이 플랫하거나 스크래치로 학습된 정책보다 강화학습 미세조정에 더 용이한가?
RQ3릴레이 정책 학습이 주방과 같은 환경에서 복잡한 긴 지평의 조작 작업을 해결할 수 있는가?
RQ4여러 미세조정 작업을 단일 다중 작업 정책으로 증류해 목표 전반에 걸쳐 성능을 유지하는가?

주요 결과

RIL은 라벨이 없는 시연에서도 플랫 목표-조건 모방보다 모방 학습의 성능을 향상시킨다.
릴레이 정책의 RL 미세조정은 기준선보다 현저히 뛰어나며, 미세조정 도중 시연을 이용한 수렴(RRF)에서 큰 이점을 보인다.
증류 단 steps를 통해 단일 다중 작업 정책이 여러 복합 목표를 해결할 수 있다.
창(window) 크기와 보상 설계가 성능에 결정적이며, 더 큰 창은 모방과 미세조정을 저하시킬 수 있으며, 희소한 보상은 탐색 방향이 주어질 때 최상의 성능을 보인다.
RPL은 긴 지평의 주방 작업에서 스크래치 계층 RL 및 평면 모방 학습 기준선보다 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.